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本 书 详细 描述 了 Linux 内 核 的 设计 与 实现 。 内 核 代码 的 编写 者 、 开 发 者 以 及 
程序 开发 人 员 都 可 以 通过 阅读 本 书 受 益 ， 他 们 可 以 更 好 地 理解 操作 系统 原理 ， 并 
将 其 应 用 在 自己 的 编码 中 以 提高 效率 和 生产 率 。 

本 书 详细 描述 了 Linux 内 核 的 主要 子 系统 和 特点 ， 包 括 Linux 内 核 的 设计 、 实 
现 和 接口 ， 从 理论 到 实践 涵盖 了 Linux 内 核 的 方方面面 ， 可 以 满足 读者 的 各 种 兴 
趣 和 需求 。 

作者 是 一 位 Linux 内 核 核 心 开发 人 员 ， 他 分 享 了 在 开发 Linux 2.6 内 核 过 程 中 
颇具 价值 的 知识 和 经 验 。 本 书 的 主题 包括 进程 管理 、 进 程 调 度 、 时 间 管 理 和 定时 
器 、 系 统 调 用 接口 、 内 存 寻 址 、 内 存 管 理 和 页 缓存 、VFS、 内 核 同 步 、 移 植 性 相 
关 的 问题 以 及 调试 技术 。 同 时 本 书 也 涵盖 了 Linux 2.6 内 核 中 颇具 特色 的 内 容 ， 包 
括 CFS 调 度 程序 、 抢 占 式 内 核 、 块 |/O 层 以 及 I/O 调 度 程序 。 


本 书 新 增 内 容 包 括 : 

便 增加 一 章 专 门 描述 内 核 数据 结构 ( 第 6 章 ) ; 

全 详细 描述 中 断 处 理 程序 和 下 半 部 机 制 |; 

全 扩充 虚拟 内 存 和 内 存 分 配 的 内 容 ; 

全 调试 Linux 内 核 的 技巧 ; 

全 内 核 同 步 和 锁 机 制 的 深度 描述 ; 

合 提交 内 核 补丁 以 及 参与 Linux 内 核 社 区 的 建设 性 建议 。 
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本 书 基于 Linux 2.6.34 内 核 详细 介绍 了 Linux 内 核 系统 ， 枝 盖 了 从 核心 内 核 系 统 的 应 用 到 内 核 设计 与 
实现 等 各 方面 的 内 容 。 本 书 主要 内 容 包括 : 进程 管理 、 进 程 调度 、 时 间 管 理 和 定时 器 、 系 统 调用 接口 、 内 
存 录 址 、 内 存 管理 和 页 缓存 、VFS、 内 核 同步 以 及 调试 技术 等 。 同 时 本 书 也 涵盖 了 Linux 2.6 内 核 中 颇具 特 
色 的 内 容 ， 包 括 CFS 调度 程序 、 抢 占 式 内 核 、 块 IO 层 以 及 IO 调度 程序 等 。 本 书 采 用 理论 与 实践 相 结合 
的 路 线 ， 能 够 带领 读者 快速 走 进 Linux 内 核 世界 ， 真 正 开 发 内 核 代码 。 

本 书 适合 作为 高 等 院 校 操作 系统 课程 的 教材 或 参考 书 ， 也 可 供 相 关 技 术 人 员 参 考 。 
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不 知 不 觉 涉足 Linux 内 核 已 经 十 多 个 年 头 了 ， 与 其 他 有 志 兴趣 ) 于 此 的 朋友 一 样 ， 我 们 也 
经 历 了 学 习 一 实用 一 追踪 一 再 学 习 的 过 程 。 也 就 是 说 ， 我 们 也 是 从 漫 无 边际 到 茫然 无 措 ， 再 到 初 
罕 门 径 ， 转 而 觉得 心 有 威 戚 艳 这 一 路 走 下 来 的 。 其 中 甘苦 ， 犹 然 在 心 。 

Linux 最 为 人 称道 的 莫 过 于 它 的 自由 精神 ， 所 有 源 代 码 唾 手 可 得 。 侯 捷 先 生 云 : “源码 在 前 ， 
了 无 秘密 。” 是 的 ， 但 是 我 们 在 面 对 它 的 时 候 ， 为 什么 却 总 是 因为 这 种 规模 和 层面 所 造就 的 陡峭 
学 习 曲 线 陷 人 困顿 昵 ? 很 多 朋友 就 此 倒 下 ， 纵 然 Linux 世界 繁花 似 锦 ， 纵 然 内 核 天 空 无 边 广阔 ， 
但 是 ， 眼 前 的 迷雾 重重 ， 心 中 的 阴 霸 又 怎 能 被 阳光 驱散 呢 ? 纵 有 雄心 壮志 ， 技 剑 四 顾 心 茫然 ， 脚 
下 路 在 何方 ? 

Linux 内 核 入 门 是 不 容易 ， 它 之 所 以 难 学 ， 在 于 庞大 的 规模 和 复杂 的 层面 。 规 模 一 大 ， 就 不 
易 现 出 本 来 面目 ， 浑 然 一 体 ， 自 然 不 容易 找到 着 手 之 处 ; 层面 一 多 ， 就 会 让 人 眼花 红 乱 ， 盘 根 错 
节 ， 怎 能 让 人 提纲 者 领 ? 

“如 果 有 这 样 一 本 书 ， 既 能 提纲 帮 领 ， 为 我 理 顺 思绪 ， 指 引 方向 ， 同 时 又 能 照顾 小 节 ， 阐 
述 细微 ， 帮 助 我 们 更 好 更 快 地 理解 STL 源码 ， 那 该 有 多 好 。” 孟 岩 先 生 如 此 说 ， 虽 然 针对 的 是 
C++， 但 道 出 的 是 研习 源码 的 人 们 共同 的 心声 。 然 而 ，Linux 源码 研究 的 方法 却 不 大 相同 。 这 还 
是 由 于 规模 和 层面 决定 的 。 比 如 说 ， 在 语言 学 习 中 ， 我 们 可 以 采取 小 步 快 跑 的 方法 ， 通 过 一 个 个 
小 程序 和 小 尝试 ， 就 可 以 取得 渐进 的 成 果 ， 就 能 从 新 技术 中 有 所 收获 。 而 掌握 Linux 呢 ? 如 果 没 
有 对 整体 的 把 握 ， 即 使 你 对 某 个 局 部 的 算法 、 技 术 或 是 代码 再 熟悉 ， 也 无 法 将 其 融入 实用 。 其 
实 ， 像 内 核 这 样 的 大 规模 的 软件 ， 正 是 编程 技术 施展 身手 的 舞台 〈 当 然 ， 目 前 的 内 核 虽然 包含 了 
一 些 面向 对 象 思想 ， 但 还 不 能 让 C++ 一 展 身 手 )。 

那么 ， 我 们 能 不 能 做 点 什么 ， 让 Linux 的 内 核 学习 过 程 更 符合 程序 员 的 习惯 呢 ? 

Robert Love 回答 了 这 个 问题 。Robert Love 是 一 个 狂热 的 内 核 爱 好 者 ， 所 以 他 的 想法 自然 贴 
近 程 序 员 。 是 的 ， 我 们 注定 要 在 对 所 有 核心 的 子 系统 有 了 全 面 认识 之 后 ， 才 能 开始 自己 的 实践 ， 
但 却 完全 可 以 舍弃 细 枝 末节 ， 将 行李 压缩 到 最 小 ， 自 然 可 以 轻装 快走 ， 迅 速 进入 动手 阶段 。 

因此 ， 相 对 于 Daniel P Bovet 和 Marco Cesati 的 内 核 巨 著 《Understanding the Linux Kernel》， 
它 少 了 五 分 细节 ; 相对 于 实践 经 典 《Linux Device Drivers》， 多 了 五 分 说 理 。 可 以 说 ， 本 书 填 补 

了 Linux 内 核 理 论 和 实践 之 间 的 渔 沟 ， 真 可 谓 “ 一 桥 飞 架 南 北 ， 天 手 变 通途 ”。 

就 我 们 的 经 验 ， 内 核 初学 者 不 是 编程 初学 者 ) 可 以 从 本 书 着 手 ， 对 内 核 各 个 核心 子 系统 
有 个 整体 把 握 ， 包 括 它们 提供 什么 样 的 服务 ， 为 什么 要 提供 这 样 的 服务 ， 又 是 怎样 实现 的 。 而 
且 ， 本 书 还 包含 了 Linux 内 核 开发 者 在 开发 时 需要 用 到 的 很 多 信息 ， 包 括 调 试 技 术 、 编 程 风格 、 
注意 事项 等 。 在 消化 本 书 的 基础 上 ， 如 果 你 侧重 于 了 解 内 核 ， 可 以 进一步 研究 《Understanding 
the Linux Kemel》 和 源 代 码 本 身 ; 如 果 你 侧重 于 实际 编程 ， 可 以 研读 《Linux Device Drivers》， 


IV 


直接 开始 动手 工作 ; 如 果 你 想 有 一 个 轻松 的 内 核 学 习 和 实践 环节 ， 请 访问 我 们 的 网 站 www. 
kerneltravel.net。 

Linux 内 核 是 一 艘 水 不 停息 的 轮船 ， 它 将 驶 向 何方 我 们 并 不 知晓 ， 但 在 这 些 变 化 的 背后 ， 总 
有 一 些 原理 是 恒定 不 变 的 ， 总 有 一 些 变化 是 我 们 想 知 晓 的 ， 比 如 调度 程序 的 大 幅度 改进 ， 内 核 性 
能 的 不 断 提升 ， 本 书 第 3 版 虽然 针对 的 是 较 新 的 2.6.34 Linux 内 核 版 本 ， 但 在 旧版 本 上 积累 的 知 
识 和 经 验 依然 有 效 ， 而 新 增 内 容 将 使 读者 在 应 对 变化 了 的 内 核 代码 时 更 加 从 容 。 

感谢 牛 涛 和 武 特 ， 他 们 在 第 2 版 和 第 3 版 差异 的 校对 中 花费 了 大 量 精 力 。 感 谢 素 不 相识 的 网 
友 Cheng Renquan， 他 主动 承担 了 其 中 一 章 的 修订 。 还 要 感谢 苏 锦绣 、 黄 伟 、 王 泽 宇 、 赵 格 娟 、 
刘 周 平 、 周 永 飞 、 曹 江 峰 、 陈 白虎 和 和 孟 阿 龙 ， 他 们 参与 了 后 期 的 校对 和 查 错 补漏 。 

最 后 ， 特 别 感谢 我 的 合作 者 康 华 ， 从 十 年 前 一 块 分 析 Linux 内 核 代 码 到 今天 ， 他 对 技术 孜孜 
不 伴 的 追求 不 但 在 业界 赢得 声誉 ， 也 使 我 们 在 翻译 过 程 中 所 过 到 的 技术 难点 和 星 淮 句子 被 一 一 迎 
丸 而 解 。 感谢 合 作者 张波 ， 他 流畅 有 趣 的 文笔 让 本 书 少 了 份 枯燥 ， 多 了 份 趣味 。 
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随 着 Linux 内 核 和 Linux 应 用 程序 越 来 越 成 熟 ， 越 来 越 多 的 系统 软件 工程 师 涉足 Linux 开发 
和 维护 领域 。 他 们 中 有 些 人 纯粹 是 出 于 个 人 爱好 ， 有 些 人 是 为 Linux 公司 工作 ， 有 些 人 是 为 硬件 
厂商 做 开发 ， 还 有 一 些 是 为 内 部 项 目 工作 的 。 

但 是 所 有 人 都 必须 直面 一 个 问题 : 内 核 的 学 习 曲 线 变 得 越 来 越 长 ， 也 越 来 越 陡峭 。 系 统 规模 
不 断 扩大 ， 复 杂 程 度 不 断 提高 。 虽 然 现在 的 内 核 开发 者 对 内 核 的 掌握 越发 炉火纯青 ， 但 新 手 却 无 
法 跟 上 内 核发 展 的 步伐 ， 长 此 以 往 将 出 现 青黄不接 的 断层 。 

我 认为 这 种 新 老 鸿沟 已 经 成 为 内 核 质 量 的 一 个 隐患 ， 而 且 问 题 将 继续 恶化 。 所 以 那些 真正 关 
心 内 核 的 人 已 经 开始 致力 于 扩大 内 核 开 发 群体 。 

解决 上 述 问 题 的 一 个 方法 是 尽量 保证 代码 简洁 : 接口 定义 合理 ， 代 码 风格 一 致 ,“ 一 次 做 
件 事 ， 做 到 完美 ”等 。 这 也 就 是 Linus Torvalds 倡导 的 解决 办 法 。 

我 提倡 的 解决 办 法 是 对 代码 慷慨 地 加 上 注释 ， 即 能 够 让 读者 立刻 了 解 代 码 开发 者 意图 的 文字 
〈 识 别 意图 和 实现 之 间 差 异 的 工作 称 为 调试 。 如 果 意 图 不 明确 显然 调试 就 难以 进行 )。 

可 是 ， 即 使 有 注解 ， 也 没 办 法 清楚 地 展现 内 核 的 各 个 主要 子 系统 的 全 景 ， 说 明 它 们 到 底 要 做 
什么 。 那 么 ， 这 些 开 发 者 又 该 从 何 下 手 呢 ? 

由 文字 材料 来 说 明 这 些 在 起 步 阶段 就 该 理解 的 材料 ， 其 实 是 最 合适 的 。 

Robert Love 的 贡献 就 在 于 此 ， 有 经 验 的 开发 者 可 以 通过 本 书 全 面 了 解 内 核子 系统 提供 的 服 
务 ， 同 时 还 可 以 了 解 这 些 服 务 是 怎么 实现 的 。 对 不 少 人 来 说 ， 这 些 知识 就 已 经 足够 了 : 那些 好 奇 
的 人 ， 那 些 应 用 程序 开发 者 ， 那 些 想 对 内 核 的 设计 品 头 论 足 一 番 的 人 ， 都 有 足够 的 谈资 了 。 

但 是 学 习 本 书 同样 可 以 作为 那些 有 抱负 的 内 核 开 发 者 更 上 一 层 楼 的 契机 ， 可 以 帮 他 们 更 改 内 
核 代 码 以 达到 预定 的 目标 。 我 建议 有 抱负 的 开发 者 能 够 亲身 实践 : 理解 内 核 某 部 分 的 捷径 就 是 对 
它 做 些 修改 ， 这 样 能 为 开发 者 揭示 仅仅 通过 看 内 核 代 码 无 法 看 到 的 深层 机 理 。 

严肃 认真 的 内 核 开发 者 应 该 加 入 开发 邮件 列表 ， 不 断 和 其 他 开发 者 交流 。 这 是 内 核 开发 者 相 
互 切磋 和 并 肩 前 进 的 最 好 方法 。 而 Robert 在 书 中 对 内 核 生活 中 至 关 重 要 的 文化 和 技巧 都 做 了 精 
彩 介绍 。 

请 学 习 和 欣赏 Robert 的 书 吧 。 想 必 你 也 希望 能 精益 求 精 ， 继 续 探索 ， 成 为 内 核 开 发 社区 中 
的 一 员 ， 那 么 首先 你 要 清楚 的 是 : 社区 欢迎 你 。 我 们 评价 和 衡量 一 个 人 是 根据 他 所 作 的 贡献 ， 当 
你 投身 于 Linux 时 ， 你 要 明白 : 虽然 你 仅仅 贡献 了 一 小 份 力 ， 但 马上 就 会 有 数 千 万 或 上 亿 人 受 
益 。 这 是 我 们 的 欢乐 之 源 ， 也 是 我 们 的 责任 之 本 。 





Andrew Morton 


叫 E 


前 


在 我 刚 开 始 有 把 自己 的 内 核 开发 经 验 集结 成 册 ， 撰 写 一 本 书 的 念头 时 ， 我 其 实 也 觉得 有 点 头 
绪 繁 多 ， 不 知道 该 从 何 下 手 。 我 实在 不 想 落 入 传统 内 核 书籍 的 案 扬 ， 照 猫 画 虎 地 再 写 这 么 一 本 。 
不 错 ， 前 人 著述 备 侨 ， 但 我 终归 是 要 写 出 点 儿 与 众 不 同 的 东西 来 ， 我 的 书 该 如 何 定位 ， 说 实话 ， 
这 确实 让 人 颇 费 思量 。 

后 来 ， 灵 感 终 于 浮现 出 来 ， 我 意识 到 自己 可 以 从 一 个 全 新 的 视角 看 待 这 个 主题 。 开 发 内 核 
是 我 的 工作 ， 同 时 也 是 我 的 嗜好 ， 内 核 就 是 我 的 挚爱 。 这 些 年 来 ， 我 不 断 搜集 与 内 核 有 关 的 奇闻 
轶 事 ， 不 断 积 攒 关键 的 开发 诀窍 ， 依 靠 这 些 日 积 月 黑 的 材料 ， 我 可 以 写 一 本 关于 开发 内 核 该 做 什 
么 一 一 更 重要 的 是 一 一 不 该 做 什么 的 书籍 。 从 本 质 上 说 ,: 这 本 书 仍旧 是 描述 Linux 内 核 是 如 何 设 
计 和 实现 的 , .但 是 写法 却 另辟蹊径 ， 所 提供 的 信息 更 倾向 于 实用 。 通 过 本 书 ， 你 就 可 以 做 一 些 内 
核 开 发 的 工作 了 一 一 并 且 是 使 用 正确 的 方法 去 做 。 我 是 一 个 注重 实效 的 人 ， 因 此 ， 这 是 一 本 实践 
的 书 ， 它 应 当 有 趣 、 易 读 且 有 用 。 

我 希望 读者 可 以 从 这 本 书 中 领略 到 更 多 Linux 内 核 的 精妙 之 处 〔 写 出 来 的 和 没 写 出 来 的 )， 
也 希望 读者 敢于 从 阅读 本 书 和 读 内 核 代 码 开始 跨越 到 开始 尝试 开发 可 用 、 可 靠 且 清晰 的 内 核 代 
码 。 当 然 如 果 你 仅仅 是 兴致 所 至 ， 读 书 自 娱 ， 那 也 希望 你 能 从 中 找到 乐趣 。 

从 第 1 版 到 现在 ， 又 过 了 一 段 时 间 ， 我 们 再 次 回 到 本 书 ， 修 补遗 憾 。 本 版 比 第 1 版 和 第 2 版 
内 容 更 丰富 : 修订 、 补 充 并 增加 了 新 的 内 容 和 章节 ， 使 其 更 加 完善 。 本 版 融合 了 第 2 版 以 来 内 
核 的 各 种 变化 。 更 值得 一 提 的 是 ，Linux 内 核 联盟 9 做 出 决定 ， 近 期 内 不 进行 2.7 版 内 核 的 开发 ， 
于 是 ， 内 核 开发 者 打算 继续 开发 并 稳定 2.6 版 。 这 个 决定 意味 深长 ， 而 本 书 从 中 的 最 大 受益 就 是 
在 2.6 版 上 可 以 稳定 相当 长 时 间 。 随 着 内 核 的 成 熟 ， 内 核 “ 快 照 ” 才 有 机 会 能 维持 得 更 久远 一 
些 。 本 书 可 作为 内 核 开 发 的 规范 文档 ， 既 认识 内 核 的 过 去 ， 也 着 眼 于 内 核 的 未 来 。 


使 用 这 本 书 


开发 Linux 内 核 不 需要 天 赋 异 秉 ， 不 需要 有 什么 魔法 ， 连 Unix 开发 者 普遍 长 着 的 络 腮 胡子 
都 不 一 定 要 有 。 内 核 虽 然 有 一 些 有 趣 并 且 独 特 的 规则 和 要 求 ， 但 是 它 和 其 他 大 型 软件 项 目 相 比 ， 
并 没有 太 大 差别 。 像 所 有 的 大 型 软件 开发 一 样 ， 要 学 的 东西 确实 不 少 ， 但 是 不 同 之 处 在 于 数量 上 
的 积累 ， 而 非 本 质 上 的 区 别 。 

认真 阅读 源码 非常 有 必要 ，Linux 系统 代码 的 开放 性 其 实 是 弥 足 珍贵 的 ， 不 要 无 动 于 圳 地 将 
它 搁置 一 边 ， 浪 费 了 大 好 资源 。 实 际 上 就 是 读 了 代码 还 远 远 不 够 呢 ， 你 应 该 钻研 并 尝试 着 动手 改 
动 一 些 代 码 。 寻 找 一 个 bug 然后 去 修改 它 ， 改 进 你 的 硬件 设备 的 驱动 程序 。 增 加 新 功能 ， 即 使 看 





日 这 一 决定 是 在 加 拿 大 湿 太 华 2004 年 夏季 举办 的 Linux 内 核 年 度 开发 者 大 会 上 做 出 的 。 


起 来 微不足道 ， 寻 找 痛 痒 之 处 并 解决 。 只 有 动手 写 代 码 才能 真正 融会 贯通 。 


内 核 版 本 


本 书 基于 Linux 2.6 内 核 系 列 。 它 并 不 涵盖 早期 的 版 本 ， 当 然 也 有 一 些 例外 。 比 如 ， 我 们 会 
讨论 2.4 系列 内 核 中 的 一 些 子 系统 是 如 何 实现 的 ， 这 是 因为 简单 的 实现 有 助 于 传授 知识 。 特 别 说 
明 的 是 ， 本 书 介 绍 的 是 最 新 的 Linux 2.6.34 内 核 版 本 。 尽 管内 核 总 在 不 断 更 新 ， 任 何 努 力也 难以 
捕获 这 样 一 只 永 不 停息 的 猛兽 ， 但 是 本 书 力图 适合 于 新 旧 内 核 的 开发 者 和 用 户 。 

虽然 本 书 讨论 的 是 2.6.34 内 核 ， 但 我 也 确保 了 它 同样 适用 于 2.6.32 内 核 。 后 一 个 版 本 往往 
被 各 个 Linux 发 行 版 本 奉 为 “企业 版 ”内 核 ， 所 以 我 们 可 以 在 各 种 产品 线 上 见 到 其 身影 。 该 版 本 
确实 已 经 开发 了 数 年 (类 似 的 “长 线 ” 版 本 还 有 2.6.9、2.6.18 和 2.6.27 等 )。 


读者 范围 


本 书 是 写 给 那些 有 志 于 理解 Linux 内 核 的 软件 开发 者 的 。 本 书 并 不 逐 行 逐 字 地 注解 内 核 源 
代码 ， 也 不 是 指导 开发 驱动 程序 或 是 内 核 API 的 参考 手册 〈 如 果 存 在 标准 的 内 核 API 的 话 )。 
本 书 的 初衷 是 提供 足够 多 的 关于 Linux 内 核 设计 和 实现 的 信息 ， 希 望 读 过 本 书 的 程序 员 能 够 拥 
有 较为 完备 的 知识 ， 可 以 真正 开始 开发 内 核 代码 。 无 论 开发 内 核 是 为 了 兴趣 还 是 为 了 赚钱 ， 我 
都 希望 能 够 带领 读者 快速 走 进 Linux 内 核 世界 。 本 书 不 但 介绍 了 理论 而 且 也 讨论 了 具体 应 用 ， 
可 以 满足 不 同 读者 的 需要 。 全 书 紧 紧 围绕 着 理论 联系 实践 ， 并 非 一 味 强调 理论 或 是 实践 。 无 论 
你 研究 Linux 内 核 的 动机 是 什么 ， 我 都 希望 这 本 书 都 能 将 内 核 的 设计 和 实现 分 析 清 楚 ， 起 到 抛 
砖 引 玉 的 作用 。 

因此 ， 本 书 和 覆盖 了 从 核心 内 核 系统 的 应 用 到 内 核 设计 与 实现 等 各 方面 的 内 容 。 我 认为 这 点 很 
重要 ,值得 花 工夫 讨论 。 例 如 ,第 8 章 讨论 的 是 所 谓 的 下 半 部 机 制 。 本 章 分 别 讨论 了 内 核 下 半 部 
机 制 的 设计 和 实现 〈 核 心 内 核 开 发 者 或 者 学 者 会 感 兴趣 )， 随 即便 介绍 了 如 何 使 用 内 核 提供 的 接 
口 实现 你 自己 的 下 半 部 〈 这 对 设备 驱动 开发 者 可 能 很 有 用 处 )。 其 实 ， 我 认为 上 述 两 部 分 内 容 是 
相得益彰 的 ， 虽 然 核 心 内 核 开 发 者 主要 关注 的 问题 是 内 核 内 部 如 何 工作 ， 但 是 也 应 该 清楚 如 何 使 
用 接口 ; 同样 ， 如 果 设 备 驱动 开发 者 了 解 了 接口 背后 的 实现 机 制 ， 自 然 也 会 受益 菲 浅 。 

这 好 比 学 习 某 些 库 的 API 函数 与 研究 该 库 的 具体 实现 。 初 看 ， 好 像 应 用 程序 开发 者 仅仅 需 
要 理解 API 一 一 我 们 被 灌输 的 思想 是 ， 应 该 像 看 待 黑 盒子 一 样 看 待 接口 。 另 外 ， 库 的 开发 者 也 只 
关心 库 的 设计 与 实现 ， 但 是 我 认为 双方 都 应 该 花 时 间 相互 学 习 。 能 深刻 了 解 操作 系统 本 质 的 应 用 
程序 开发 者 无 疑 可 以 更 好 地 利用 它 。 同 样 ， 库 开发 者 也 决 不 应 该 脱离 基于 此 库 的 应 用 程序 ， 埋 头 
开发 。 因 此 ， 我 既 讨 论 了 内 核子 系统 的 设计 ， 也 讨论 了 它 的 用 法 ， 和 希望 本 书 能 对 核心 开发 者 和 应 
用 开发 者 都 有 用 。 

我 假设 读者 已 经 掌握 了 C 语言 ， 而 且 对 Linux 比较 熟悉 。 如 果 读 者 还 具有 与 操作 系统 设计 
相关 的 经 验 和 其 他 计算 机 科学 的 概念 就 更 好 了 。 当 然 ， 我 也 会 尽 可 能 多 地 解释 这 些 概 念 ， 但 如 果 
你 仍然 不 能 理解 这 些 知识 的 话 ， 请 看 本 书 最 后 参考 资料 中 给 出 的 一 些 关 于 操作 系统 设计 方面 的 经 
典 书籍 。 

本 书 很 适合 在 大 学 中 作为 介绍 操作 系统 的 辅助 教材 ， 与 介绍 操作 系统 理论 的 书 相 搭配 。 对 于 
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大 学 高 年 级 课程 或 者 研究 生 课程 来 说 ， 可 直接 使 用 本 书 作为 教材 。 
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第 ( 们 ) 章 
Linux 内 核 简 介 


第 1 章 将 带 我 们 从 Unix 的 历史 视角 来 认识 Linux 内 核 与 Linux 操作 系统 的 前 世 今生 。 今 
天 Unix 系统 业已 演化 成 一 个 具有 相似 应 用 程序 编程 接口 (API)， 并 且 基 于 相似 设计 理念 的 操作 
系统 家 族 。 但 它 又 是 一 个 别 具 特 色 的 操作 系统 ， 从 萌芽 到 现在 已 经 有 40 余年 的 历史 。 若 要 了 解 
Linux， 我 们 必须 首先 认识 Unix 系统 。 


1.1 Unix 的 历史 


Unix 虽然 已 经 使 用 了 40 年 ， 但 计算 机 科学 家 仍然 认为 它 是 现存 操作 系统 中 最 强大 和 最 优秀 
的 系统 。 从 1969 年 诞生 以 来 ， 由 Dennis Ritchie 和 Ken Thompson 的 灵感 火花 点 亮 的 这 个 Unix 
产物 已 经 成 为 一 种 传奇 ， 它 历经 了 时 间 的 考验 依然 声名 不 坠 。 

Unix 是 从 贝尔 试验 室 的 一 个 失败 的 多 用 户 操 作 系 统 Multics 中 涅 黎 而 生 的 。Multics 项 目 被 
终止 后 ， 贝 尔 实验 室 计 算 科学 研究 中 心 的 人 们 发 现 自己 处 于 一 个 没有 交互 式 操 作 系 统 可 用 的 境 
地 。 在 这 种 情况 下 ，1969 年 的 夏天 ， 贝 尔 实验 室 的 程序 员 们 设计 了 一 个 文件 系统 原型 ， 而 这 个 
原型 最 终 发 展演 化 成 了 Unix。Thompson 首先 在 一 台 无 人 问津 的 PDP-7 型 机 上 实现 了 这 个 全 新 的 
操作 系统 。1971 年 ，Unix 被 移植 到 PDP-11 型 机 中 。1973 年 ， 整 个 Unix 操作 系统 用 C 语言 进行 
了 重 写 ， 正 是 当时 这 个 并 不 太 引 人 注目 的 举动 ， 给 后 来 Unix 系统 的 广泛 移植 铺 平 了 道路 。 第 一 
个 在 贝尔 实验 室 以 外 被 广泛 使 用 的 Unix 版 本 是 第 6 版 ， 称 为 V6。 

许多 其 他 的 公司 也 把 Unix 移植 到 新 的 机 型 上 。 伴 随 着 这 些 移植 ， 开 发 者 们 按照 自己 的 方 
式 不 断 地 增强 系统 的 功能 ， 并 由 此 产生 了 若干 变 体 。1977 年 ， 贝 尔 实验 室 综 合 各 种 变 体 推出 了 
Unix System I ; 1983 年 AT&T 推出 了 System Ve, 

由 于 Unix 系统 设计 简洁 并 且 在 发 布 时 提供 源 代码 ， 所 以 许多 其 他 组 织 和 团体 都 对 它 进行 
了 进一步 的 开发 。 加 州 大 学 伯克利 分 校 便 是 其 中 影响 最 大 的 一 个 。 他 们 推出 的 变 体 岂 Berkeley 
Software Distributions (BSD)。 伯 克利 的 第 一 个 Unix 演化 版 是 1977 年 推出 的 1BSD 系统 ， 它 的 
实现 基于 贝尔 实验 室 的 Unix 版 本 ， 不 但 在 其 上 加 入 了 许多 修正 补丁 ， 而 且 还 集成 了 不 少 额 外 的 
软件 ; 1978 年 伯克利 继续 推出 了 2BSD 系统 ， 其 中 包含 我 们 如 今 仍 在 使 用 的 csh 、vi 等 应 用 软 
件 。 而 伯克利 真正 独立 开发 的 Unix 系统 是 于 1979 年 推出 的 3BSD 系统 ， 该 系统 引入 了 一 系列 令 
人 振奋 的 新 特性 ， 支 持 虚拟 内 存 便 是 其 一 大 亮点 。 在 3BSD 以 后 ， 伯 克利 又 相继 推出 了 4BSD 系 
列 ， 包 括 4.0BSD、4.1BSD、4.2BSD、4.3BSD 等 众多 分 支 。 这 些 Unix 演化 版 实现 了 任务 管理 、 


日 什么 是 系统 IV 呢 ? 它 是 一 个 内 部 开发 版 本 。 
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换 页 机 制 、TCP/P 等 新 的 特性 。 最 终 伯克利 大 学 在 1994 年 重 写 了 虚拟 内 存 子 系统 (VM)， 并 
推出 了 伯克利 Unix 系统 的 最 终 官 方 版 ， 即 我 们 熟知 的 4.4BSD。 现 在 ， 多 亏 了 BSD 的 开放 性 许 
可 ，BSD 的 开发 才 得 以 由 Darwin、FreeBSD、NetBSD 和 OpenBSD 继续 。 

20 世纪 80 和 90 年 代 ， 许 多 工作 站 和 服务 器 厂商 推出 了 他 们 自己 的 Unix， 这 些 Unix 大 部 
分 是 在 AT&T 或 伯克利 发 行 版 的 基础 上 加 .上 一 些 满足 他 们 特定 体系 结构 需要 的 特性 。 这 其 中 就 
包括 Digital 的 Tru64、HP 的 HP-UX、IBM 的 AIX、Sequent 的 DYNIX/ptx、SGI 的 IRIX 和 Sun 
的 Solaris 和 SunOS。 

由 于 最 初 一 流 的 设计 和 以 后 多 年 的 创新 与 逐步 提高 ，Unix 系统 成 为 一 个 强大 、 健 壮 和 稳 
定 的 操作 系统 。 下 面 的 几 个 特点 是 使 Unix 强大 的 根本 原因 。 首 先 ，Unix 很 简洁 : 不 像 其 他 动 
加 提供 数 千 个 系统 调用 并 且 设 计 目 的 不 明确 的 系统 ，Unix 仅仅 提供 几 百 个 系统 调用 并 且 有 一 个 
非常 明确 的 设计 目的 。 第 二 ， 在 Unix 中 ， 所 有 的 东西 者 被 当做 文件 对 待 。 这 种 抽象 使 对 数据 
和 对 设备 的 操作 是 通过 一 套 相 同 的 系统 调用 接口 来 进行 的 : open()、read()、write()、lseek() 和 
close0。 第 三 ，Unix 的 内 核 和 相关 的 系统 工具 软件 是 用 C 语言 编写 而 成 一 一 正 是 这 个 特点 使 得 
Unix 在 各 种 硬件 体系 架构 面前 都 具备 令 人 惊异 的 移植 能 力 ， 并 且 使 广大 的 开发 人 员 很 容易 就 能 
接受 它 。 第 四 ，Unix 的 进程 创建 非常 迅速 ， 并 且 有 一 个 非常 独特 的 fork0 系统 调用 。 最 后 ，Unix 
提供 了 一 套 非 常 简单 但 又 很 稳定 的 进程 间 通 信 元 语 ， 快 速 简洁 的 进程 创建 过 程 使 Unix 的 程序 把 
目标 放 在 一 次 执行 保质 保 量 地 完成 一 个 任务 上 ， 而 简单 稳定 的 进程 间 通 信 机 制 又 可 以 保证 这 些 单 
一 目的 的 简单 程序 可 以 方便 地 组 合 在 一 起 ， 去 解决 现实 中 变 得 越 来 越 复杂 的 任务 。 正 是 由 于 这 种 
策略 和 机 制 分 离 的 设计 理念 ， 确 保 了 Unix 系统 具备 清晰 的 层次 化 结构 。 

今天 ，Unix 已 经 发 展 成 为 一 个 支持 抢占 式 多 任务 、 多 线程 、 虚 拟 内 存 、 换 页 、 动 态 链接 和 
TCP/IP 网 络 的 现代 化 操作 系统 。Unix 的 不 同 变 体 被 应 用 在 大 到 数 百 个 CPU 的 集群 ， 小 到 嵌入 式 
设备 的 各 种 系统 上 。 尽 管 Unix 已 经 不 再 被 认为 是 一 个 实验 室 项 目 了 ， 但 它 仍 然 伴随 着 操作 系统 
设计 技术 的 进步 而 继续 成 长 ， 人 们 仍然 可 以 把 它 作 为 一 个 通用 的 操作 系统 来 使 用 。 

Unix 的 成 功 归 功 于 其 简洁 和 一 流 的 设计 。 它 能 拥有 今天 的 能 力 和 成 就 应 该 归功 于 Dennis 
Ritchie、Ken Thompson 和 其 他 早期 设计 人 员 的 最 初 决策 ， 同 时 也 要 归功 于 那些 永 不 妥协 于 成 见 ， 
从 而 赋予 Unix 无 穷 活力 的 设计 抉择 。 


1.2 追寻 Linus 足迹 : Linux 简介 


1991 年 ，Linus Torvalds 为 当时 新 推出 的 、 使 用 Intel 80386 微 处 理 器 的 计算 机 开发 了 一 款 全 
新 的 操作 系统 ，Linux 由 此 诞生 。 那 时 ， 作 为 芬兰 赫尔辛基 大 学 的 一 名 学 生 的 Linus， 正 为 不 能 
随心 所 欲 使 用 强大 而 自由 的 Unix 系统 而 苦恼 。 对 Torvalds 而 言 ， 使 用 当时 流行 的 Microsoft 的 
DOS 系统 ， 除 了 玩 波斯 王子 游戏 外 ， 别 无 他 用 。 Linus 热衷 使 用 于 Minix， 一 种 教学 用 的 廉价 
Unix， 但 是 ， 他 不 能 轻易 修改 和 发 布 该 系统 的 源 代码 (由 于 Minix 的 许可 证 )， 也 不 能 对 Minix 
开发 者 所 作 的 设计 轻举妄动 ， 这 让 他 耿耿 于 怀 并 由 此 对 作者 的 设计 理念 感到 失望 。 


日 ”好 吧 ， 我 承认 ， 不 是 所 有 一 一 但 是 确实 很 多 东西 都 被 表示 成 文件 。Sockets 就 是 一 个 典型 的 例外 。 不 过 最 近 有 
不 少 尝试 ， 比 如 贝尔 实验 室 中 的 Unix 后 继 项 目 ，Plan9 等 都 在 试图 将 系统 全 方位 地 以 文件 形式 实现 。 
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Linus 像 任 何 一 名 生机 勃勃 的 大 学 生 一 样 决心 走出 这 种 困境 : 开发 自己 的 操作 系统 。 他 开始 
写 了 一 个 简单 的 终端 仿真 程序 ， 用 于 连接 到 本 校 的 大 型 Unix 系统 上 。 他 的 终端 仿真 程序 经 过 一 
学 年 的 研发 ， 不 断 改进 和 完善 。 不 入，Linus 手 上 就 有 了 虽 不 成 熟 但 五 脏 俱 全 的 Unix。1991 年 年 
底 ， 他 在 Internet 上 发 布 了 早期 版 本 。 

从 此 Linux 便 起 航 了 ， 最 初 的 Linux 发 布 很 快 赢得 了 众多 用 户 。 而 实际 上 ， 它 成 功 的 重要 因 
素 是 ，Linux 很 快 吸 引 了 很 多 开发 者 、 黑 客 对 其 代码 进行 修改 和 完善 。 由 于 其 许可 证 条 款 的 约定 ， 
Linux 迅速 成 为 多 人 的 合作 开发 项 目 。 

到 现在 ，Linux 早已 羽翼 丰满 ， 它 被 广泛 移植 到 Alpha、ARM、PowerPC、SPARC、x86-64 
等 许多 其 他 体系 结构 之 上 。 如 今 Linux 既 被 安装 在 最 轻 小 的 消费 电子 设备 上 ， 比 如 和 手表， 同时 也 
在 服务 规模 最 庞大 的 服务 数据 中 心 上 ， 如 超级 计算 机 集群 。 今 天 ，Linux 的 商业 前 景 也 越 来 越 被 
看 好 ， 不 管 是 新 成 立 的 Linux 专业 公司 Red Hat 还 是 闻名 退 偿 的 计算 巨头 BM， 都 提供 林林总总 
的 解决 方案 ， 从 峰 入 式 系 统 、 桌 面 环境 一 直到 服务 器 。 

Linux 是 类 Unix 系统 ， 但 它 不 是 Unix。 需 要 说 明 的 是 ， 尽 管 Linux 借鉴 了 Unix 的 许多 设计 
并 且 实 现 了 Unix 的 API (由 Posix 标准 和 其 他 Single Unix Specification 定义 的 )， 但 Linux 没有 
像 其 他 Unix 变种 那样 直接 使 用 Unix 的 源 代 码 。 必 要 的 时 候 ， 它 的 实现 可 能 和 其 他 各 种 Unix 的 
实现 大 相 径 庭 ， 但 它 没有 抛弃 Unix 的 设计 目标 并 且 保 证 了 应 用 程序 编程 接口 的 一 致 。 

Linux 是 一 个 非 商业 化 的 产品 ， 这 是 它 最 让 人 感 兴趣 的 特征 。 实 际 上 Linux 是 一 个 互联 网 上 
的 协作 开发 项 目 。 尽 管 Linus 被 认为 是 Linux 之 父 ， 并 且 现 在 依然 是 一 个 内 核 维护 者 ， 但 开发 工 
作 其 实 是 由 一 个 结构 松散 的 工作 组 协力 完成 的 。 事 实 上， 任何 人 都 可 以 开发 内 核 。 和 该 系统 的 
大 部 分 一 样 ，Linux 内 核 也 是 自由 〈 公 开 ) 软件 98。 当然 ， 也 不 是 无 限 自 由 的 。 它 使 用 GNU 的 
General Public License (GPL ) 第 2 版 作为 限制 条 款 。 这 样 做 的 结果 是 ， 你 可 以 自由 地 获取 内 核 
代码 并 随意 修改 它 ， 但 如 果 你 希望 发 布 你 修改 过 的 内 核 ， 你 也 得 保证 让 得 到 你 的 内 核 的 人 同时 享 
有 你 曾经 享受 过 的 所 有 权利 ， 当 然 ， 包 括 全 部 的 源 代码 昌 。 

Linux 用 途 广 泛 ， 包 含 的 东西 也 名 目 繁多 。Linux 系统 的 基础 是 内 核 、C 库 、 工 具 集 和 系统 
的 基本 工具 ， 如 登录 程序 和 Shell。Linux 系统 也 支持 现代 的 X Windows 系统 ， 这 样 就 可 以 使 用 完 
整 的 图 形 用 户 桌 面 环 境 ， 如 GNOME。 可 以 在 Linux 上 使 用 的 商业 和 自由 软件 数 以 千 计 。 在 这 本 书 
以 后 的 部 分 ， 当 我 使 用 Linux 这 个 词 时 ， 我 其 实说 的 是 Linux 内 核 。 在 容易 引起 混淆 的 地 方 ， 我 会 
具体 说 明 到 底 我 想 说 的 是 整个 系统 还 是 内 核 。 一 般 情 况 下 ，Linux 这 个 词汇 主要 还 是 指 内 核 。 


1.3 ”操作 系统 和 内 核 简介 


由 于 一 些 现行 商业 操作 系统 日 趋 庞杂 及 其 设计 上 的 缺陷 ， 操 作 系 统 的 精确 定义 并 没有 一 个 统 
一 的 标准 。 许 多 用 户 把 他 们 在 显示 器 屏幕 上 看 到 的 东西 理所当然 地 认为 就 是 操作 系统 。 通 常 ， 当 


日 谁 有 兴趣 了 解 free VS open 的 论战 ， 请 参见 http://www.fsf.org and http://www.opensource.org. 

合 ”如 果 你 没有 读 过 GNU GPL 2.0， 你 最 好 还 是 先 读 读 它 吧 。 内 核 代 码 树种 的 . COPYING 文件 就 是 它 的 一 份 拷 
贝 。 你 也 可 以 在 http://www.fsf.org 找到 它 。 注 意 最 新 的 GNU GPL 已 经 是 3.0 版 本 了 ， 但 内 核 开 发 者 们 仍然 决 
定 继续 使 用 2.0 版 本 。 
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然 在 本 书 中 也 这 公认 为 ， 操 作 系统 是 指 在 整个 系统 中 负责 完成 最 基本 功能 和 系统 管理 的 那些 部 
分 。 这 些 部 分 应 该 包括 内 核 、 设 备 驱动 程序 、 启 动 引 导 程序 、 命 令 行 Shell 或 者 其 他 种 类 的 用 户 
界面 、 基 本 的 文件 管理 工具 和 系统 工具 。 这 些 都 是 必 不 可 少 的 东西 一 一 别 以 为 只 要 有 浏览 器 和 播 
放 器 就 行 了 。 系 统 这 个 词 其 实 包含 了 操作 系统 和 所 有 运行 在 它 之 上 的 应 用 程序 。 

当然 ， 本 书 的 主题 是 内 核 。 用 户 界面 是 操作 系统 的 外 在 表象 ， 内 核 才 是 操作 系统 的 内 在 核 
心 。 系 统 其 他 部 分 必须 依靠 内 核 这 部 分 软件 提供 的 服务 ， 像 管理 硬件 设备 、 分 配 系 统 资源 等 。 
内 核 有 时 候 被 称 作 是 管理 者 或 者 是 操作 系统 核心 。 通 常 一 个 内 核 由 负责 响应 中 断 的 中 断 服务 程 
序 ， 负 责 管理 多 个 进程 从 而 分 享 处 理 器 时 间 的 调度 程序 ， 负 责 管理 进程 地 址 空间 的 内 存 管 理 程 
序 和 网 络 、 进 程 间 通信 等 系统 服务 程序 共同 组 成 。 对 于 提供 保护 机 制 的 现代 系统 来 说 ， 内 核 独 
立 于 普通 应 用 程序 ， 它 一 般 处 于 系统 态 ， 拥 有 受 保护 的 内 存 空 间 和 访问 硬件 设备 的 所 有 权限 。 
这 种 系统 态 和 被 保护 起 来 的 内 存 空间 ， 统 称 为 内 核 空间 。 相 对 的 ， 应 用 程序 在 用 户 空间 执行 。 
它们 只 能 看 到 允许 它们 使 用 的 部 分 系统 资源 ， 并 且 只 使 用 某 些 特定 的 系统 功能 ， 不 能 直接 访问 
硬件 ， 也 不 能 访问 内 核 划 给 别人 的 内 存 范围 ， 还 有 其 他 一 些 使 用 限制 。 当 内 核 运 行 的 时 候 ， 系 
统 以 内 核 态 进入 内 核 空间 执行 。 而 执行 一 个 普通 用 户 程序 时 ， 系 统 将 以 用 户 态 进入 以 用 户 空间 
执行 。 

在 系统 中 运行 的 应 用 程序 通过 系统 调用 来 与 内 核 通 信 ( 见 图 1-1)。 应 用 程序 通常 调用 库 函 
数 〈 比 如 C 库 函 数 ) 再 由 库 函 数 通过 系统 调用 界面 ， 让 内 核 代 其 完成 各 种 不 同 任务 。 一 些 库 调 
用 提供 了 系统 调用 不 具备 的 许多 功能 ， 在 那些 较为 复杂 的 函数 中 ， 调 用 内 核 的 操作 通常 只 是 整 
个 工作 的 一 个 步骤 而 已 。 举 个 例子 ， 拿 printf0 函数 来 说 ， 它 提供 了 数据 的 缓存 和 格式 化 等 操作 ， 
而 调用 write0 函数 将 数据 写 到 控制 台 上 只 不 过 是 其 中 的 一 个 动作 罢了 。 不 过 ， 也 有 一 些 库 函 数 
和 系统 调用 就 是 一 一 对 应 的 关系 ， 比 如 ，open() 库 函 数 除 了 调用 open0 系统 调用 之 外 ， 几 乎 什么 
也 不 做 。 还 有 一 些 C 库 函 数 ， 像 strcpyO0， 根 本 就 不 需要 直接 调用 系统 级 的 操作 。 当 一 个 应 用 程 
序 执行 一 条 系统 调用 ， 我 们 说 内 核 正 在 代 其 执行 。 如 果 进 一 步 解释 ， 在 这 种 情况 下 ， 应 用 程序 被 
称 为 通过 系统 调用 在 内 核 空间 运行 ， 而 内 核 被 称 为 运行 于 进程 上 下 文中 。 这 种 交互 关系 一 一 应 用 
程序 通过 系统 调用 界面 陷入 内 核 一 一 是 应 用 程序 完成 其 工作 的 基本 行为 方式 。 

内 核 还 要 负责 管理 系统 的 硬件 设备 。 现 有 的 几乎 所 有 的 体系 结构 ， 包 括 全 部 Linux 支持 的 体 
系 结构 ， 都 提供 了 中 断 机 制 。 当 硬件 设备 想 和 系统 通信 的 时 候 ， 它 首先 要 发 出 一 个 异步 的 中 断 
信号 去 打 断 处 理 器 的 执行 ， 继 而 打 断 内 核 的 执行 。 中 断 通常 对 应 着 一 个 中 断 号 ， 内 核 通 过 这 个 
中 断 号 查找 相应 的 中 断 服务 程序 ， 并 调用 这 个 程序 响应 和 处 理 中 断 。 举 个 例子 ， 当 你 敲 击 键盘 
的 时 候 ， 键 盘 控 制 器 发 送 一 个 中 断 信 号 告知 系统 ， 键 盘 缓冲 区 有 数据 到 来 。 内 核 注 意 到 这 个 中 
断 对 应 的 中 断 号 ， 调 用 相应 的 中 断 服务 程序 。 该 服务 程序 处 理 键盘 数据 然后 通知 键盘 控制 器 可 
以 继续 输入 数据 了 。 为 了 保证 同步 ， 内 核 可 以 停 用 中 止 一 一 既 可 以 停止 所 有 的 中 断 也 可 以 有 选 
择 地 停止 某 个 中 断 号 对 应 的 中 断 。 许 多 操作 系统 的 中 断 服务 程序 ， 包 括 Linux 的 ， 都 不 在 进程 
上 下 文中 执行 。 它 们 在 一 个 与 所 有 进程 都 无 关 的 、 专 门 的 中 断 上 下 文中 和 运行。 之 所 以 存在 这 样 
一 个 专门 的 执行 环境 ， 就 是 为 了 保证 中 断 服务 程序 能 够 在 第 一 时 间 响 应 和 处 理 中 断 请 求 ， 然 后 
快速 地 退出 。 

这 些 上 下 文 代表 着 内 核 活动 的 范围 。 实 际 上 我 们 可 以 将 每 个 处 理 器 在 任何 指定 时 间 点 上 的 活 
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动 必然 概括 为 下 列 三 者 之 一 : 









应 用 程序 1 应 用 程序 2 应 用 程序 3 


用 户 空 间 


系统 调用 接口 


内 核 空 间 








[| 


图 1-1 应 用 程序 、 内 核 和 硬件 的 关系 
“ 运行 于 用 户 空间 ， 执 行 用 户 进程 。 
“ 运行 于 内 核 空 间 ， 处 于 进程 上 下 文 ， 代 表 某 个 特定 的 进程 执行 。 
* 运行 于 内 核 空间 ， 处 于 中 断 上 下 文 ， 与 任何 进程 无 关 ， 处 理 某 个 特定 的 中 断 。 
以 上 所 列 几乎 包括 所 有 情况 ， 即 使 边 边 角 角 的 情况 也 不 例外 ， 例 如 ， 当 CPU 空闲 时 ， 内 核 
就 运行 一 个 空 进程 ， 处 于 进程 上 下 文 ， 但 运行 于 内 核 空间 。 


1.4 Linux 内 核 和 传统 Unix 内 核 的 比较 


由 于 所 有 的 Unix 内 核 都 同宗 同 源 ， 并 且 提 供 相同 的 API， 现 代 的 Unix 内 核 存 在 许多 设计 上 
的 相似 之 处 〈 请 看 参考 目录 中 我 所 推荐 的 关于 传统 Unix 内 核 设计 的 相关 书籍 )。Unix 内 核 几乎 
毫 无 例外 的 都 是 一 个 不 可 分 割 的 静态 可 执行 库 。 也 就 是 说 ， 它 们 必须 以 巨大 、 单 独 的 可 执行 块 
的 形式 在 一 个 单独 的 地 址 空间 中 运行 。Unix 内 核 通常 需要 硬件 系统 提供 页 机 制 MMU) 以 管理 
内 存 。 这 种 页 机 制 可 以 加 强 对 内 存 空间 的 保护 ， 并 保证 每 个 进程 都 可 以 运行 于 不 同 的 虚 地 址 空间 
上 。 初 期 的 Linux 系统 也 需要 MMU 支持 ， 但 有 一 些 特殊 版 本 并 不 依赖 于 此 。 这 无 疑 是 一 个 简洁 
的 设计 ， 因 为 它 可 以 使 Linux 系统 运行 在 没有 MMU 的 小 型 嵌入 系统 上 。 不 过 现实 之 中 ， 即 便 很 
简单 的 嵌入 系统 都 开始 具备 内 存 管理 单元 这 种 高 级 功能 了 。 本 书 中 ， 我 们 将 重点 关注 支持 MMU 
的 Linux 系统 。 
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单 内 核 与 微 内 核 设计 之 比较 

操作 系统 内 核 可 以 分 为 两 大 阵营 : 单 内 核 和 微 内 核 〈 第 三 阵营 是 外 内 核 ， 主 要 用 在 科研 
系统 中 )。 

单 内 核 是 两 大 阵营 中 一 种 较为 简单 的 设计 ， 在 1980 年 之 前 ， 所 有 的 内 核 都 设计 成 单 内 
核 。 所 谓 单 内 核 就 是 把 它 从 整体 上 作为 一 个 单独 的 大 过 程 来 实现 ， 同 时 也 运行 在 一 个 单独 的 地 
空间 上 。 因 此 ， 这 样 的 内 核 通 常 以 单个 静态 二 进 制 文件 的 形式 存放 于 磁盘 中 。 所 有 内 核 服 务 
都 在 这 样 的 一 个 大 内 核 地 址 空间 上 运行 。 内 核 之 间 的 通信 是 微不足道 的 ， 因 为 大 家 都 运行 在 内 
核 态 ， 并 身 处 同一 地 址 空间 : 内 核 可 以 直接 调用 函数 ， 这 与 用 户 空间 应 用 程序 没有 什么 区 别 。 
这 种 模式 的 支持 者 认为 单 模块 具有 简单 和 性 能 高 的 特点 。 大 多 数 Unix 系统 都 设计 为 单 模块 。 

另 一 方面 ， 微 内 核 并 不 作为 一 个 单独 的 大 过 程 来 实现 。 相 反 ， 微 内 核 的 功能 被 划分 为 多 
个 独立 的 过 程 ， 每 个 过 程 叫做 一 个 服务 器 。 理 想 情 况 下 ， 只 有 强烈 请 求 特权 服务 的 服务 器 才 
运行 在 特权 模式 下 ， 其 他 服务 器 都 运行 在 用 户 空间 。 不 过 ， 所 有 的 服务 器 都 保持 独立 并 运行 
在 各 自 的 地 址 空间 上 。 因 此 , 就 不 可 能 像 单 模块 内 核 那 样 直接 调用 函数 , 而 是 通过 消息 传递 处 
理 微 内 核 通 信 : 系统 采用 了 进程 间 通 信 (IPC) 机 制 ， 因 此 ， 各 个 服务 器 之 间 通 过 IPC 机 制 
互通 消息 ， 互 换 “ 服 务 ”。 服 务 器 的 各 自 独立 有 效 地 避免 了 一 个 服务 器 的 失效 祸 及 另 一 个 。 同 
样 ， 模 块 化 的 系统 允许 一 个 服务 器 为 了 另 一 个 服务 器 而 换 出 。 

因为 PC 机 制 的 开销 多 于 函数 调用 ， 又 因为 会 涉及 内 核 空间 与 用 户 空 间 的 上 下 文 切换 ， 因 
此 ， 消 息 传递 需要 一 定 的 周期 ， 而 单 内 核 中 简单 的 函数 调用 没有 这 些 开销 。 结 果 ， 所 有 实际 应 
用 的 基于 微 内 核 的 系统 都 让 大 部 分 或 全 部 服务 器 位 于 内 核 ， 这 样 ， 就 可 以 直接 调用 函数 ， 消 
除 频 繁 的 上 下 文 切换 .Windows NT 内 核 (Windows XP、Windows Vista 和 Windows 7 等 基于 此 ) 
和 Mach (Mac OS X 的 组 成 部 分 ) 是 微 内 核 的 典型 实例 。 不 管 是 Windows NT 还 是 Mac OS X， 
都 在 其 新 近 版 本 中 不 让 任何 微 内 核 服 务 器 运行 在 用 户 空间 ， 这 违背 了 微 内 核 设 计 的 初 囊 。 

Linux 是 一 个 单 内 核 ， 也 就 是 说 ，Linux 内 核 运 行 在 单独 的 内 核 地 址 空间 上 。 不 过 ，Linux 
汲取 了 微 内 核 的 精华 : 其 引 以 为 豪 的 是 模块 化 设计 、 抢 占 式 内 核 、 支 持 内 核 线程 以 及 动态 装 
载 内 核 模块 的 能 力 。 不 仅 如 此 ，Linux 还 避 其 微 内 核 设计 上 性 能 损失 的 缺陷 ， 让 所 有 事情 都 运 
行 在 内 核 态 ， 直 接 调用 函数 ， 无 须 消息 传递 。 至 今 ，Linux 是 模块 化 的 、 多 线程 的 以 及 内 核 本 
身 可 调度 的 操作 系统 ， 实 用 主义 再 次 占 了 上 风 。 


当 Linus 和 其 他 内 核 开发 者 设计 Linux 内 核 时 ， 他 们 并 没有 完全 彻底 地 与 Unix 诀别 。 他 们 


充分 地 认识 到 ， 不 能 忽视 Unix 的 底 殖 〈 特 别 是 Unix 的 API)。 而 由 于 Linux 并 没有 基于 某 种 
特定 的 Unix，Linus 和 他 的 伙伴 们 对 每 个 特定 的 问题 都 可 以 选择 已 知 最 理想 的 解决 方案 一 一 在 
有 些 时 候 ， 当 然 也 可 以 创造 一 些 新 的 方案 。Linux 内 核 与 传统 的 Unix 系统 之 间 存 在 一 些 显 著 的 
差异 : 


*Linux 支持 动态 加 载 内 核 模 块 。 尽 管 Linux 内 核 也 是 单 内 核 ， 可 是 允许 在 需要 的 时 候 动态 
地 外 除 和 加 载 部 分 内 核 代 码 。 

“Linux 支持 对 称 多 处 理 (SMP) 机 制 ， 尽 管 许多 Unix 的 变 体 也 支持 SMP， 但 传统 的 Unix 
并 不 支持 这 种 机 制 。 
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。Linux 内 核 可 以 抢占 《preemptive)。 与 传统 的 Unix 变 体 不 同 ，Linux 内 核 具 有 人 允许 在 内 核 
运行 的 任务 优先 执行 的 能 力 。 在 其 他 各 种 Unix 产品 中 ， 只 有 Solaris 和 IRIX 支持 抢占 ， 
但 是 大 多 数 Unix 内 核 不 支持 抢占 。 

。Linux 对 线程 支持 的 实现 比较 有 意思 : 内 核 并 不 区 分 线程 和 其 他 的 一 般 进 程 。 对 于 内 核 来 
说 ， 所 有 的 进程 都 一 样 一 一 只 不 过 是 其 中 的 一 些 共享 资源 而 已 。 

。Linux 提供 具有 设备 类 的 面向 对 象 的 设备 模型 、 热 插 拔 事件 ， 以 及 用 户 空间 的 设备 文件 系 
统 (sysfs ) 。 

。Linux 忽略 了 一 些 被 认为 是 设计 得 很 拙劣 的 Unix 特性 ， 像 STREAMS， 它 还 忽略 了 那些 难 
以 实现 的 过 时 标准 。 

。Linux 体现 了 自由 这 个 词 的 精 侨 。 现 有 的 Linux 特性 集 就 是 Linux 公开 开发 模型 自由 发 展 
的 结果 。 如 果 一 个 特性 没有 任何 价值 或 者 创意 很 差 ， 没 有 任何 人 会 被 迫 去 实现 它 。 相 反 
的 ， 针 对 变革 ，Linux 已 经 形成 了 一 种 值得 称赞 的 态度 : 任何 改变 都 必须 要 能 通过 简洁 的 
设计 及 正确 可 靠 的 实现 来 解决 现实 中 确实 存在 的 问题 。 于 是 ， 许 多 出 现在 某 些 Unix 变种 
系统 中 ， 那 些 出 于 市 场 宣 传 目 的 或 没有 普遍 意义 的 一 些 特性 ， 如 内 核 换 页 机 人 制 等 都 被 毫 不 
迟疑 地 据 弃 了 。 

不 管 Linux 和 Unix 有 多 大 的 不 同 ， 它 身上 都 深 深 地 打上 了 Unix 烙印 。 


1.5 Linux 内 核 版 本 


Linux 内 核 有 两 种 : 稳定 的 和 处 于 开发 中 的 。 稳 定 的 内 核 具 有 工业 级 的 强度 ， 可 以 广泛 地 应 
用 和 部 署 。 新 推出 的 稳定 内 核 大 部 分 都 只 是 修正 了 一 些 Bug 或 是 加 入 了 一 些 新 的 设备 驱动 程序 。 
另 一 方面 处 于 开发 中 的 内 核 中 许多 东西 变化 得 都 很 快 。 而 且 由 于 开发 者 不 断 试验 新 的 解决 方案 ， 
内 核 常常 发 生 剧烈 的 变化 。 

Linux 通过 一 个 简单 的 命名 机 制 来 区 分 稳定 的 和 处 于 开发 中 的 内 核 〈 见 图 1-2)。 这 种 机 制 使 
用 三 个 或 者 四 个 用 “.” 分 隔 的 数字 来 代表 不 同 内 核 版 本 。 第 一 个 数字 是 主 版 本 号 ， 第 二 个 数字 
是 从 版 本 号 ， 第 三 个 数字 是 修订 版 本 号 ， 第 四 个 可 选 的 数字 为 稳定 版 本 号 〈stable version)。 从 副 
版 本 号 可 以 反映 出 该 内 核 是 一 个 稳定 版 本 还 是 一 个 处 于 开发 中 的 版 本 : 该 数字 如 果 是 偶数 ， 那 么 
此 内 核 就 是 稳定 版 ; 如 果 是 奇数 ， 那 么 它 就 是 开发 版 。 举 例 来 说 ， 版 本 号 为 2.6.30.1 的 内 核 ， 它 
就 是 一 个 稳定 版 。 这 个 内 核 的 主 版 本 号 是 2， 从 版 本 号 是 6， 修 订 版 本 号 是 30， 稳 定 版 本 号 是 1。 
头 两 个 数字 在 一 起 描述 了 “内 核 系列 ” 在 这 个 例子 中 ， 就 是 2.6 版 内 核 系 列 。 


主 版 本 号 修订 版 本 号 


2.6.26.1 


从 版 本 号 稳定 版 本 号 
图 1-2 Kemel 版 本 命名 规则 
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处 于 开发 中 的 内 核 一 般 要 经 历 几 个 阶段 。 最 开始 ， 内 核 开 发 者 们 开始 试验 新 的 特性 ， 这 时 候 
出 现 错误 和 混乱 是 在 所 难免 的 。 经 过 一 段 时 间 ， 系 统 渐渐 成 熟 ， 最 终 会 有 一 个 特性 审定 的 声明 。 
这 时 候 ，Linus 就 不 再 接受 新 的 特性 了 ， 而 对 已 有 特性 所 进行 的 后 续 工 作 会 继续 进行 。 当 Linus 
认为 这 个 新 内 核 确实 是 趋 于 稳定 后 ， 就 开始 审定 代码 。 这 以 后 ， 就 只 允许 再 向 其 中 加 入 修改 bug 
的 代码 了 。 在 经 过 一 个 短暂 (希望 如 此 〉 的 准备 期 之 后 ，Linus 会 将 这 个 内 核 作为 一 个 新 的 稳定 
版 推出 。 例 如 ，1.3 系列 的 开发 版 稳定 在 2.0， 而 2.5 稳定 在 2.6。 

在 一 个 特定 的 系列 下 ，Linus 会 定期 发 布 新 内 核 。 每 个 新 内 核 都 是 一 个 新 的 修订 版 本 。 比 如 
2.6 内 核 系 列 的 第 一 个 版 本 是 2.6.0， 第 二 个 版 本 是 2.6.1。 这 些 修 订 版 包含 了 BUG 修复 、 新 的 驱 
动 和 一 些 新 特性 。 但 是 ， 像 2.6.3 和 2.6.4 修订 版 本 之 间 的 差异 是 很 微小 的 。 

这 种 开发 方式 一 直 持 续 到 2004 年 ， 当 时 在 受 邀 参加 的 Linux 开发 者 峰会 上 ， 内 核 开 发 者 们 
确定 延长 2.6 内 核 系列 ， 从 而 推迟 进入 到 2.7 系列 的 步伐 。 原因 是 2.6 版 本 的 内 核 已 经 被 广泛 接 
受 、 其 已 经 证 明了 稳定 成 熟 ， 而 那些 还 不 成 熟 的 新 特性 其 实 并 非 人 们 所 需 。 如 今 看 来 2.6 版 本 内 
核 的 稳定 出 色 无 疑 证 明了 该 方针 是 多 么 英明 。 在 编写 本 书 时 ，2.7 版 本 内 核 仍 未 提 上 议程 ， 而 且 
也 看 不 出 任何 启动 迹象 。 相 反 ， 每 个 2.6 系列 内 核 的 修订 版 本 发 布 变 得 越发 长 入 ， 每 个 修订 版 都 
伴随 有 一 个 最 小 的 开发 版 系列 〈 称 其 微缩 开发 版 )。Andrew Morton，Linus 的 副手 ， 重 新 定义 了 
他 所 维护 的 2.6-mm 代码 树 〈 它 曾经 用 于 内 存 管理 相关 改动 的 测试 版 本 )， 使 其 成 为 一 个 通用 目 
的 的 测试 版 本 。 任 何 尚未 稳定 的 修改 都 将 首先 进入 2.6-mm 树 中 ， 等 其 稳定 后 ， 再 进入 某 个 2.6 
的 微缩 开发 版 。 如 此 策略 的 结果 是 : 最 近 几 年 ， 每 一 个 2.6 系列 的 修订 版 本 〈 比 如 2.6.29) 都 会 
较 其 前 身 有 深刻 的 变化 ， 也 都 会 经 历数 月 才 面世 。 这 种 “微缩 开发 版 方式 ”被 证 明 是 可 行 的、 成 
功 的 ， 它 更 有 利于 在 引入 新 特性 的 同时 ， 维 持 系统 的 稳定 性 。 想 必 在 近期 内 开发 策略 不 会 改 弦 易 
略 ， 事 实 上 内 核 开 发 者 们 就 新 版 本 的 发 布 流程 延续 目前 方式 已 经 达成 了 一 致意 见 。 

为 了 解决 版 本 发 布 周 期 变 长 的 副作用 ， 内 核 开 发 者 们 引入 了 上 面 提 到 的 稳定 版 本 号 。 这 个 
稳定 版 本 号 (如 2.6.32.8 中 的 8) 包含 了 关键 性 bug 的 修改 ， 并 且 常 会 向 前 移植 处 于 开发 版 内 核 
(如 2.6.33) 的 重要 修改 。 依 靠 这 种 方式 ， 以 前 版 本 保证 了 仍然 能 将 重点 放 在 稳定 性 上 。 


1.6 Linux 内 核 开 发 者 社区 


当 你 开始 开发 内 核 代 码 时 ， 你 就 成 为 全 球 内 核 开 发 社区 的 一 分 子 了 。 这 个 社区 最 重要 的 论坛 
是 linux kernel mailing list( 常 缩写 为 kml)。 你 可 以 在 http://vegr.kernel.org 上 订阅 邮件 。 要 注意 
的 是 这 个 邮件 列表 流量 很 大 ， 每 天 有 超过 几 百 条 的 消息 ， 所 以 其 他 的 订阅 者 (包括 所 有 的 核心 开 
发 人 员 ， 甚 至 包括 Linus 本 人 ) 可 没有 心思 昕 人 说 废话 。 这 个 邮件 列表 可 以 给 从 事 内 核 开 发 的 人 
提供 价值 无 穷 的 帮助 ， 在 这 里 ， 你 可 以 寻找 测试 人 员 ， 接 受 评论 (peer review)， 向 人 求助 。 

后 续 内 容 列 出 了 内 核 开 发 过 程 的 全 景 ， 并 详尽 地 描述 了 如 何 成 功 地 加 入 到 内 核 开发 社区 中 
去 。 但 是 要 明白 ， 在 Linux 内 核 邮件 列表 中 潜伏 ( 安静 地 阅读 ) 是 你 阅读 本 书 的 最 好 补充 。 


1.7 ”小结 


这 是 一 本 关于 Linux 内 核 的 书 : 内 核 的 目标 , 为 达到 目标 所 进行 的 设计 以 及 设计 的 实现 。 这 
本 书 侧 重 实 用 ， 同 时 在 讲述 工作 原理 时 会 结合 理论 联系 实践 。 我 的 目标 是 让 你 从 一 个 业内 人 士 的 
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视角 来 欣赏 和 理解 Linux 内 核 的 设计 和 实现 之 美 。 力 求 以 一 种 有 趣 的 方式 《伴随 着 我 个 人 在 开 
发 内 核 过 程 中 收集 的 种 种 奇闻 物事 和 方法 技巧 ) 引导 你 走 过 跌 跌 撞 撞 的 起 步 阶 段 。 无 论 你 是 立 
志 于 开发 内 核 代 码 ， 或 者 进行 驱动 开发 ， 甚 至 只 是 希望 能 更 好 地 了 解 Linux 操作 系统 ， 你 都 将 
从 本 书 受益 。 

当 你 阅读 本 书 时 ， 我 希望 你 有 一 台 装 有 Linux 的 机 器 ， 我 希望 你 能 够 看 到 内 核 代 码 。 其 实 ， 
这 很 理想 了 ， 因 为 这 意味 着 你 是 一 位 Linux 的 使 用 者 ， 并 且 早 已 经 开始 拿 起 手术 刀 对 着 源 代码 进 
行 探索 了 ， 只 不 过 需要 一 份 结构 图 以 便 对 整个 经 脉 有 个 总 体 把 握 罢 了 。 相 反 ， 你 可 能 没有 使 用 过 
Linux， 只 是 在 好 奇 心 的 驱使 下 希望 了 解 一 些 内 核 设计 的 秘密 而 已 。 但 是 ， 如 果 你 的 目的 只 是 扎 
写 自己 的 代码 ， 那 么 ， 源 代码 的 作用 无 可 替代 。 而 且 ， 你 不 需要 付出 任何 代价 ， 尽 管用 吧 。 

好 了 ， 最 重要 的 是 ， 在 其 中 寻找 快乐 吧 。 


第 \2) 章 
从 内 核 出 发 


在 这 一 章 ， 我 们 将 介绍 Linux 内 核 的 一 些 基本 常识 : 从 何 处 获取 源码 ， 如 何 编译 它 ， 又 如 何 
安装 新 内 核 。 那 么 ， 让 我 们 考察 一 下 内 核 程序 与 用 户 空间 程序 的 差异 ， 以 及 内 核 中 所 使 用 的 通 
用 编程 结构 。 虽 然 内 核 在 很 多 方面 有 其 独特 性 ， 但 从 现在 来 看 ， 它 和 其 他 大 型 软件 项 目 并 无 多 
大 差别 。 


2.1 获取 内 核 源 码 


登录 Linux 内 核 官方 网 站 http:/www.kernel.org， 可 以 随时 获取 当前 版 本 的 Linux 源 代 码 ， 可 
以 是 完整 的 压缩 形式 〈 使 用 tar 命令 创建 的 一 个 压缩 文件 )， 也 可 以 是 增 量 补丁 形式 。 

除 特殊 情况 下 需要 Linux 源码 的 旧版 本 外 ， 一 般 都 希望 拥有 最 新 的 代码 。Kkernel.org 是 源码 
的 库存 之 处 ， 那 些 领导 潮流 的 内 核 开发 者 所 发 布 的 增 量 补丁 也 放 在 这 里 。 


2.1.1 使 用 Git 


在 过 去 的 几 年 中 ，Linus 和 他 领导 的 内 核 开发 者 们 开始 使 用 一 个 新 版 本 的 控制 系统 来 管理 
Linux 内 核 源 代码 。Linus 创造 的 这 个 系统 称 为 Git。 与 CSV 这 样 的 传统 的 版 本 控制 系统 不 同 ， 
Git 是 分 布 式 的 ， 它 的 用 法 和 工作 流程 对 许多 开发 者 来 说 都 很 陌生 。 我 强烈 建议 使 用 Git 来 下 载 
和 管理 Linux 内 核 源 代码 。 

你 可 以 使 用 Git 来 获取 最 新 提交 到 Linus 版 本 树 的 一 个 副本 : 

$ git clone git://git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux-2.6.git 

当下 载 代码 后 ， 你 可 以 更 新 你 的 分 支 到 Linus 的 最 新 分 支 : 

$ git pull 

有 了 这 两 个 命令 ， 就 可 以 获取 并 随时 保持 与 内 核 官方 的 代码 树 一 致 。 要 提交 和 管理 自己 的 修 
改 ， 请 看 第 20 章 。 关 于 Git 的 全 面 讨论 已 经 超出 了 本 书 的 范围 ， 许 多 在 线 资源 都 提供 了 有 效 的 
指导 。 

2.1.2 安装 内 核 源 代码 
内 核 压缩 以 GNU zip (gzip〉 和 bzip2 两 种 形式 发 布 。bzip2 是 默认 和 首选 形式 ， 因 为 它 在 压 


缩 上 比 gzip 更 有 优势 。 以 bzip2 形式 发 布 的 Linux 内 核 叫 做 linux-x.y.z.tar.bz2， 这 里 x.y.z 是 内 核 
源码 的 具体 版 本 。 下 载 了 源 代 码 之 后 ， 就 可 以 轻而易举 地 对 其 解压 。 如 果 压 缩 形式 是 bzip2， 则 
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运行 : 
$ tar xvjf linux-x.y.2z.tar.bz2 
如 果 压 缩 形式 是 GNU 的 zip， 则 运行 ; 
$ 七 ar xvzf linux-x.y.2z.tar.gz 


解压 后 的 源 代码 位 于 linux-x.y.z. 目录 下 。 如 果 你 是 使 用 git 获取 和 管理 内 核 源 代码 ， 那 么 就 
不 需要 下 载 压缩 文件 ， 只 要 像 前 面 描述 的 那样 运行 git clone 命令 ，git 就 会 下 载 并 且 解 压 最 新 的 
源 代 码 。 


内 核 源 码 一 般 安装 在 /usrsrc/linux 目录 下 。 但 请 注意 ， 不 要 把 这 个 源码 树 用 于 开发 ， 因 
为 编译 你 的 C 库 所 用 的 内 核 版 本 就 链接 到 这 棵 树 。 此 外 ， 不 要 以 root 身份 对 内 核 进行 修改 ， 
而 应 当 是 建立 自己 的 主 目录 ， 仅 以 root 身份 安装 新 内 核 。 即 使 在 安装 新 内 核 时 ，/usr/src/linux 


2.1.3 ”使 用 补丁 


在 Linux 内 核 社区 中 ， 补 本 是 通用 语 。 你 可 以 以 补丁 的 形式 发 布 对 代码 的 修改 ， 也 可 以 以 补 
丁 的 形式 接收 其 他 人 所 做 的 修改 。 增 量 补丁 可 以 作为 版 本 转移 的 桥梁 。 你 不 再 需要 下 载 庞大 的 内 
核 源码 的 全 部 压缩 ， 而 只 需 给 旧版 本 打上 一 个 增 量 补丁 ， 让 其 旧 貌 换 新 颜 。 这 不 仅 节 约 了 带宽 ， 
还 省 了 时 间 。 要 应 用 增 量 补丁 ， 从 你 的 内 部 源码 树 开始 , 只 需 运行 : 


$ patch -pl < ../patch-x.y.z 
一 般 来 说 ， 一 个 给 定 版 本 的 内 核 补丁 总 是 打 在 前 一 个 版 本 上 。 
有 关 创 建 和 应 用 补丁 更 深入 的 讨论 会 在 后 续 章节 进行 。 

2.2 内 核 源码 树 


内 核 源码 树 由 很 多 目录 组 成 ， 而 大 多 数目 录 又 包含 更 多 的 子 目录 。 源 码 树 的 根 目录 及 其 子 目 
录 如 表 2-1 所 示 。 





表 2-1 内 核 源码 树 的 根 目录 描述 


目 录 描 述 
arch 特定 体系 结构 的 源码 
block 块 设备 IO 层 
crypto 加 密 API 
Documentation 内 核 源码 文档 
drivers 设备 驱动 程序 ， 
firmware 使 用 某 些 驱动 程序 而 需要 的 设备 固件 


fs VFS 和 各 种 文件 系统 
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( 续 ) 
目 录 描 述 
include 内 核 头 文件 
init 内 核 引 导 和 初始 化 
ipe 进程 间 通 信 代 码 
kernel 像 调度 程序 这 样 的 核心 子 系统 
lib 通用 内 核 函数 
mm 内 存 管 理子 系统 和 VM 
net 网 络 子 系统 
samples 示例 ， 示 范 代码 
scripts 编译 内 核 所 用 的 脚本 
Security Linux 安全 模块 
sound 语音 子 系统 
usr 早期 用 户 空间 代码 (所 谓 的 initramfs ) 
tools 在 Linux 开发 中 有 用 的 工具 
virt 虚拟 化 基础 结构 


在 源码 树 根 目录 中 的 很 多 文件 值得 提 及 。COPYING 文件 是 内 核 许可 证 (GNU GPL v2)。 
CREDITS 是 开发 了 很 多 内 核 代码 的 开发 者 列表 。MAINTAINERS 是 维护 者 列表 ， 它 们 负责 维护 
内 核子 系统 和 驱动 程序 。 Makefile 是 基本 内 核 的 Makefile。 


2.3 编译 内 核 


编译 内 核 易 如 反 擎 。 让 人 叹为观止 的 是 ， 这 实际 上 比 编译 和 安装 像 glibe 这 样 的 系统 级 组 
伴 还 要 简单 。2.6 内 核 提供 了 一 套 新 工具 ， 使 编译 内 核 更 加 容易 ， 比 早期 发 布 的 内 核 有 了 长 足 
的 进步 。 


2.3.1 配置 内 核 


因为 Linux 源码 随手 可 得 ， 那 就 意味 着 在 编译 它 之 前 可 以 配置 和 定制 。 的 确 ， 你 可 以 把 自己 
需要 的 特定 功能 和 驱动 程序 编译 进 内 核 。 在 编译 内 核 之 前 ， 首 先 你 必须 配置 它 。 由 于 内 核 提 供 了 
数不胜数 的 功能 ， 支 持 了 难以 计数 的 硬件 ， 因 而 有 许多 东西 需要 配置 。 可 以 配置 的 各 种 选项 ， 以 
CONFIG FEATURE 形式 表示 ， 其 前 级 为 CONFIG。 例 如 ， 对 称 多 处 理 器 (SMP) 的 配置 选项 为 
CONFIG_SMP。 如 果 设 置 了 该 选项 ， 则 SMP 启用 ， 否 则 ，SMP 不 起 作用 。 配 置 选项 既 可 以 用 来 
决定 哪些 文件 编译 进 内 核 ， 也 可 以 通过 预 处 理 命 令 处 理 代码 。 

这 些 配 置 项 要 么 是 二 选 一 ， 要 么 是 三 选 一 。 二 选 一 就 是 yes 或 no。 比 如 CONFIG_ 
PREEMPT 就 是 二 选 一 ， 表 示 内 核 抢 占 功能 是 否 开 启 。 三 选 一 可 以 是 yes、no 或 module。module 
,意味 着 该 配置 项 被 选 定 了 ， 但 编译 的 时 候 这 部 分 功能 的 实现 代码 是 以 模块 (一 种 可 以 动态 安装 的 
独立 代码 段 〉 的 形式 生成 。 在 三 选 一 的 情况 下 ， 显 然 yes 选项 表示 把 代码 编译 进 主 内 核 映像 中 ， 
而 不 是 作为 一 个 模块 。 驱 动 程序 一 般 都 用 三 选 一 的 配置 项 。 
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配置 选项 也 可 以 是 字符 串 或 整数 。 这 些 选项 并 不 控制 编译 过 程 ， 而 只 是 指定 内 核 源码 可 以 访 
问 的 值 ， 一 般 以 预 处 理 宏 的 形式 表示 。 比 如 ， 配 置 选 项 可 以 指定 静态 分 配 数组 的 大 小 。 

销售 商 提供 的 内 核 ， 像 Canonical 的 Ubuntu 或 者 Red Hat 的 Fedora， 他 们 的 发 布 版 中 包含 了 
预 编 译 的 内 核 ， 这 样 的 内 核 使 得 所 需 的 功能 得 以 充分 地 启用 ， 并 几乎 把 所 有 的 驱动 程序 都 编译 成 
模块 。 这 就 为 大 多 数 硬 件 作为 独立 的 模块 提供 了 坚实 的 内 核 支持 。 但 是 ， 话 又 说 回来 ， 如 果 你 是 
一 个 内 核 黑 客 ， 你 应 当 编 译 自 己 的 内 核 ， 并 按 自己 的 意愿 决定 包括 或 不 包含 哪 一 模块 。 

内 核 提 供 了 各 种 不 同 的 工具 来 简化 内 核 配置 。 最 简单 的 一 种 是 一 个 字符 界面 下 的 命令 行 工具 : 


$ make config 


该 工具 会 逐一 遍历 所 有 配置 项 ， 要 求 用 户 选 择 yes、no 或 是 module (如 果 是 三 选 一 的 话 )。 
由 于 这 个 过 程 往往 要 耗费 掉 很 长 时 间 ， 所 以 ， 除 非 你 的 工作 是 按 小 时 计 费 的 ， 否 则 应 该 多 利用 基 
于 ncurse 库 编 制 的 图 形 界面 工具 : 


$ make menuconfig 
或 者 ， 是 用 基于 gtk+ 的 图 形 工具 : 
$ make gconfig 


这 三 种 工具 将 所 有 配置 项 分 门 别 类 放置 ， 比 如 按 “ 处 理 器 类 型 和 特点 ”。 你 可 以 按 类 移动 、 
浏览 内 核 选项 ， 当 然 也 可 以 修改 其 值 。 
这 条 命令 会 基于 默认 的 配置 为 你 的 体系 结构 创建 一 个 配置 : 


$ make defconfig 


尽管 这 些 缺 省 值 有 点 随意 性 〈 在 i386 上， 据说 那 就 是 Linus 的 配置 )， 但 是 ， 如 果 你 从 未 配 
置 过 内 核 ， 那 它们 会 提供 一 个 良好 的 开端 。 赶 快 行动 吧 ， 运 行 这 条 命令 ， 然 后 回头 看 看 ， 确 保 为 
你 的 硬件 所 配置 的 选项 是 启用 的 。 

这 些 配 置 项 会 被 存放 在 内 核 代码 树 根 目录 下 的 .config 文件 中 。 你 很 容易 就 能 找到 它 〈 内 核 
开发 者 差不多 都 能 找到 )， 并 且 可 以 直接 修改 它 。 在 这 里 面 查找 和 修改 内 核 选 项 也 很 容易 。 在 你 修 
改过 配置 文件 之 后 ， 或 者 在 用 已 有 的 配置 文件 配置 新 的 代码 树 的 时 候 ， 你 应 该 验证 和 更 新 配置 : 

$ make oldconfig 

事实 上 ， 在 编译 内 核 之 前 你 都 应 该 这 么 做 。 

配置 选项 CONFIG IKCONFIG PROC 把 完整 的 压缩 过 的 内 核 配置 文件 存放 在 /proc/config. 
gz 下 ， 这 样 当 你 编译 一 个 新 内 核 的 时 候 就 可 以 方便 地 克隆 当前 的 配置 。 如 果 你 目前 的 内 核 已 经 
启用 了 此 选项 ， 就 可 以 从 /proc 下 复制 出 配置 文件 并 且 使 用 它 来 编译 一 个 新 内 核 : 


$ zcat /proc/config.gz > .config 
$ make oldconfig 


一 旦 内 核 配 置 好 了 不论 你 是 如 何 配置 的 )， 就 可 以 使 用 一 个 简单 的 命令 来 编译 它 了 : 
$ make 


这 跟 2.6 以 前 的 版 本 不 同 ， 你 不 用 在 每 次 编译 内 核 之 间 都 运行 make dep 了 一 一 代码 之 间 的 
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依赖 关系 会 自动 维护 。 你 也 无 须 再 指定 像 老 版 本 中 bzImage 这 样 的 编译 方式 或 独立 地 编译 模块 ， 
默认 的 Makefile 规则 会 打点 这 一 切 。 


2.3.2 减少 编译 的 垃圾 信息 


如 果 你 想 尽 量 少 地 看 到 垃圾 信息 ， 却 又 不 希望 错过 错误 报告 与 警告 信息 的 话 ， 你 可 以 用 以 下 
命令 来 对 输出 进行 重 定向 : 


$ make > .. /detritus 


一 旦 你 需要 查看 编译 的 输出 信息 ， 你 可 以 查看 这 个 文件 。 不 过 ， 因 为 错误 和 警告 都 会 在 屏幕 
上 显示 ， 所 以 你 需要 看 这 个 文件 的 可 能 性 不 大 。 事 实 上 ， 我 只 不 过 输入 如 下 命令 : 


$ make > /dev/null 


就 可 把 无 用 的 输出 信息 重 定 向 到 永 无 返回 值 的 黑洞 /dev/null。 
2.3.3 衍生 多 个 编译 作业 


make 程序 能 把 编译 过 程 拆 分 成 多 个 并 行 的 作业 。 其 中 的 每 个 作业 独立 并 发 地 运行 ， 这 有 助 
于 极 大 地 加 快 多 处 理 器 系统 上 的 编译 过 程 ， 也 有 利于 改善 处 理 器 的 利用 率 ， 因 为 编译 大 型 源 代 码 
树 也 包括 IO 等 待 所 花费 的 时 间 〈 也 就 是 处 理 器 空 下 来 等 待 VO 请 求 完成 所 花费 的 时 间 )。 

默认 情况 下 ，make 只 衍生 一 个 作业 ， 因 为 Makefiles 常会 出 现 不 正确 的 依赖 信息 。 对 于 不 正确 
的 依赖 ， 多 个 作业 可 能 会 互相 踩踏 ， 导 致 编译 过 程 出 错 。 当 然 ， 内 核 的 Makefiles 没有 这 样 的 编码 
错误 ， 因 此 衍生 出 的 多 个 作业 编译 不 会 出 现 失败 。 为 了 以 多 个 作业 编译 内 核 ， 使 用 以 下 命令 : 


$ make -jn 


这 里 ，n 是 要 衍生 出 的 作业 数 。 在 实际 中 ， 每 个 处 理 器 上 一 般 生生 出 一 个 或 者 两 个 作业 。 例 
如 ， 在 一 个 16 核 处 理 器 上 ， 你 可 以 输入 如 下 命令 : 


$ make -j32 > /dev/null 


利用 出 色 的 distec 或 者 ccache 工具 ， 也 可 以 动态 地 改善 内 核 的 编译 时 间 。 


2.3.4 安装 新 内 核 


在 内 核 编译 好 之 后 ， 你 还 需要 安装 它 。 怎 么 安装 就 和 体系 结构 以 及 启动 引导 工具 (boot 
loader) 息息相关 了 一 一 查阅 启动 引导 工具 的 说 明 ， 按 照 它 的 指导 将 内 核 映 像 拷 贝 到 合适 的 位 置 ， 
并 且 按 照 启动 要 求 安装 它 。 一 定 要 保证 随时 有 一 个 或 两 个 可 以 启动 的 内 核 ， 以 防 新 编译 的 内 核 出 
现 问 题 。 

例如 ， 在 使 用 grub 的 x86 系统 上 ， 可 能 需要 把 arch/i386/boot/bzImage 拷贝 到 /boot 目录 下 ， 
像 vmlinuz-version 这 样 命 名 它 ， 并 且 编 辑 /ete/grub/grub.conf 文件 ， 为 新 内 核 建立 一 个 新 的 启动 
项 。 使 用 LILO 启动 的 系统 应 当 编辑 /etc/lilo.conf， 然 后 运行 lilo。 

所 幸 ， 模 块 的 安装 是 自动 的 ， 也 是 独立 于 体系 结构 的 。 以 root 身份 ， 只 要 运行 
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% make modules install 


就 可 以 把 所 有 已 编译 的 模块 安装 到 正确 的 主 目录 /lib/modules 下 。 

编译 时 也 会 在 内 核 代码 树 的 根 目录 下 创建 一 个 System.map 文件 。 这 是 一 份 符号 对 照 表 ， 用 
以 将 内 核 符号 和 它们 的 起 始 地 址 对 应 起 来 。 调 试 的 时 候 ， 如 果 需 要 把 内 存 地 址 翻译 成 容易 理解 的 
函数 名 以 及 变量 名 ， 这 就 会 很 有 用 。 


2.4 ”内 核 开发 的 特点 


相对 于 用 户 空间 内 应 用 程序 的 开发 ， 内 核 开 发 有 一 些 独特 之 处 。 尽 管 这 些 差异 并 不 会 使 开发 
内 核 代 码 的 难度 超过 开发 用 户 代码 ， 但 它们 依然 有 很 大 不 同 。 

这 些 特点 使 内 核 成 了 一 只 性 格 铀 异 的 猛兽 。 一 些 常 用 的 准则 被 三 覆 了 ， 而 又 必须 建立 许多 全 
新 的 准则 。 尽 管 有 许多 差异 一 目 了 然 (人 人 都 知道 内 核 可 以 做 它 想 做 的 任何 事 )， 但 还 是 有 一 些 
差异 降 暗 不 明 。 最 重要 的 差异 包括 以 下 几 种 : 

“ 内 核 编 程 时 既 不 能 访问 C 库 也 不 能 访问 标准 的 C 头 文件 。 

" 内 核 编程 时 必须 使 用 GNU C。 

。 内 核 编程 时 缺乏 像 用 户 空间 那样 的 内 存 保护 机 制 。 

* 内核 编程 时 难以 执行 浮 点 运算 。 

“内核 给 每 个 进程 只 有 一 个 很 小 的 定 长 堆栈 。 

“ 由 于 内 核 支 持 异 步 中 断 、 抢 占 和 SMP， 因 此 必须 时 刻 注意 同步 和 并 发 。 

“要 考虑 可 移植 性 的 重要 性 。 

让 我 们 仔细 考察 一 下 这 些 要 点 ， 所 有 内 核 开发 者 必须 牢记 以 上 要 点 。 


2.4.1 无 libc 库 抑 或 无 标准 头 文件 


与 用 户 空 间 的 应 用 程序 不 同 ， 内 核 不 能 链接 使 用 标准 C 函数 库 一 一 或 者 其 他 的 那些 库 也 不 
行 。 造 成 这 种 情况 的 原因 有 许多 ， 其 中 就 包括 先 有 鸡 还 是 先 有 和 蛋 这 个 悖 论 。 不 过 最 主要 的 原因 还 
是 速度 和 大 小 。 对 内 核 来 说 ， 完 整 的 C 库 一 一 哪怕 是 它 的 一 个 子 集 ， 都 太 大 且 太 低 效 了 。 

别 着 急 ， 大 部 分 常用 的 C 库 函 数 在 内 核 中 都 已 经 得 到 了 实现 。 比 如 操作 字符 串 的 函数 组 就 
位 于 lib/string.c 文件 中 。 只 要 包含 <linux/string.h> 头 文 件 ， 就 可 以 使 用 它们 。 


， 头 文件 
当 我 在 本 书 中 谈 及 头 文件 时 ， 都 指 的 是 组 成 内 核 源 代码 树 的 内 核 头 文件 。 内 核 源 代码 文 

件 不 能 包含 外 部 头 文件 ， 就 像 它们 不 能 用 外 部 库 一 样 。 
. 基本 的 头 文件 位 于 内 核 源 代码 树 顶 级 目录 下 的 include 目录 中 。 例 如 ， 头 文件 <linux/ 
”inotify.h> 对 应 内 核 源 代码 树 的 include/linux/inotify.h。 
, 体系 结构 相关 的 头 文件 集 位 于 内 核 源 代码 树 的 arch/<architecture>/include/asm 目录 下 。 例 

如 ， 如 果 编 译 的 是 x86 体系 结构 ， 则 体系 结构 相关 的 头 文件 就 是 arch/x86/include/asm。 内 核 
， 代码 通过 以 asm/ 为 前 绥 的 方式 包含 这 些 头 文件 ， 例 如 <asm/ioctl.h>。 
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在 所 有 没有 实现 的 函数 中 ， 最 著名 的 就 数 printf0 函数 了。 内核 代码 虽然 无 法 调用 printf0， 
但 它 提供 的 printk0 函数 几乎 与 printfl) 相同 。printk0 函数 负责 把 格式 化 好 的 字符 串 拷 贝 到 内 核 
日 志 缓 冲 区 上 ， 这 样 ，syslog 程序 就 可 以 通过 读 取 该 缓冲 区 来 获取 内 核 信 息 。printk0 的 用 法 很 
像 printf0 : 


printk{("Hello world! A string:'%s' and an integer:'%d'\n", str, i); 


printk( 和 printftO 之 间 的 一 个 显著 区 别 在 于 ，printk0 允许 你 通过 指定 一 个 标志 来 设置 优先 
级 。syslogd 会 根据 这 个 优先 级 标志 来 决定 在 什么 地 方 显示 这 条 系统 消息 。 下 面 是 一 个 使 用 这 种 
优先 级 标志 的 例子 : 


printk (KERN ERR "this is an error!\n"); 


注意 在 KERN_ERR 和 要 打印 的 消息 之 间 没 有 去 号 ， 这 样 写 是 别 有 用 意 的 。 优 先 级 标志 是 
预 处 理 程序 定义 的 一 个 描述 性 字符 串 ， 在 编译 时 优先 级 标志 就 与 要 打印 的 消息 绑 在 一 
起 处 理 。 贯 穿 整 本 书 ， 我 们 会 使 用 printk()。 


2.4.2 GNUC 


和 


像 所 有 自视 清高 的 Unix 内 核 一 样 ，Linux 内 核 是 用 C 语言 编写 的 。 让 人 略 感 惊讶 的 是 ， 内 
核 并 不 完全 符合 ANSI C 标准 。 实 际 上 ， 只 要 有 可 能 ， 内 核 开 发 者 总 是 要 用 到 gcc 提供 的 许多 语 
言 的 扩展 部 分 。(gcc 是 多 种 GNU 编译 器 的 集合 ， 它 包含 的 C 编译 器 既 可 以 编译 内 核 ， 也 可 以 编 
译 Linux 系统 上 用 C 语言 写 的 其 他 代码 。) 

内 核 开发 者 使 用 的 C 语言 涵盖 了 ISO C99 9 标准 和 GNU C 扩展 特性 。 这 其 中 的 种 种 变化 把 
Linux 内 核 推 向 了 gcc 的 怀抱 ， 尽 管 目前 出 现 了 一 些 新 的 编译 器 如 Intel C， 已 经 支持 了 足够 多 的 
gcc 扩展 特性 ， 完 全 可 以 用 来 编译 Linux 内 核 了 。 最 早 支持 gce 的 版 本 是 3.2， 但 是 推荐 使 用 gcc 
4.4 或 之 后 的 版 本 。Linux 内 核 用 到 的 ISO C99 标准 的 扩展 没有 什么 特别 之 处 ， 而 且 C99 作为 C 
语言 官方 标准 的 修订 本 ， 不 可 能 有 大 的 或 是 激进 的 变化 。 让 人 感 兴趣 的 ， 与 标准 C 语言 有 区 别 的 ， 
通常 也 是 人 们 不 熟悉 的 那些 变化 ， 多 数 集中 在 GNU C 上 。 就 让 我 们 研究 一 下 内 核 代码 中 所 使 用 到 
的 C 语 言 扩 展 中 让 人 感 兴趣 的 那 部 分 吧 ， 这 些 变 化 使 内 核 代码 有 别 于 你 所 熟悉 的 其 他 项 目 。 

1. 内 联 (inline) 函数 

C99 和 GNU C 均 支 持 内 联 函 数 。inline 这 个 名 称 全 就 可 以 反映 出 它 的 工作 方式 ， 函 数 会 在 它 
所 调用 的 位 置 上 展开 。 这 么 做 可 以 消除 函数 调用 和 返回 所 带 来 的 开销 (寄存 器 存储 和 恢复 )。 而 
且 ， 由 于 编译 器 会 把 调用 函数 的 代码 和 函数 本 身 放 在 一 起 进行 优化 ， 所 以 也 有 进一步 优化 代码 的 
可 能 。 不 过 ， 这 么 做 是 有 代价 的 (天 下 没有 免费 的 午餐 )， 代 码 会 变 长 ， 这 也 就 意味 着 占用 更 多 


日 ISO C99 是 ISO C 的 最 新 修订 版 。C99 相对 于 前 一 个 修订 版 C90 做 了 许多 加 强 ，ISO C99 引入 了 指定 初始 化 ， 
可 变 长 度 的 数组 ，C++ 风格 的 注释 ，long long 和 complex 数据 类 型 ， 但 是 linux 内 核 只 使 用 了 C99 特性 的 一 个 
子 集 。 

日 译 者 注 : inline 翻译 成 内 联 似 乎 并 不 贴切 ， 直 译 应 该 是 “在 字里行间 展开 ”的 意思 ， 不 过 约定 俗 成 ， 我 们 也 把 
它 翻 译 成 “内 联 ”。 
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的 内 存 空 间或 者 占用 更 多 的 指令 缓存 。 内 核 开发 者 通常 把 那些 对 时 间 要 求 比较 高 ， 而 本 身长 度 
又 比较 短 的 函数 定义 成 内 联 函 数 。 如 果 一 个 函数 较 大 ， 会 被 反复 调用 ， 且 没有 特别 的 时 间 上 的 限 
制 ， 我 们 并 不 移 成 把 它 做 成 内 联 函 数 。 

定义 一 个 内 联 函 数 的 时 候 ， 需 要 使 用 static 作为 关键 字 ， 并 且 用 inline 限定 它 。 比 如 : 


static inline void wolf (unsigned long tail size) 


内 联 函 数 必须 在 使 用 之 前 就 定义 好 ， 否 则 编译 器 就 没 法 把 这 个 函数 展开 。 实 践 中 一 般 在 头 文 
件 中 定义 内 联 函 数 。 由 于 使 用 了 static 作为 关键 字 进 行 限制 ， 所 以 编译 时 不 会 为 内 联 函 数 单独 建 
立 一 个 函数 体 。 如 果 一 个 内 联 函 数 仅 仅 在 某 个 源 文件 中 使 用 ， 那 么 也 可 以 把 它 定 义 在 该 文件 开始 
的 地 方 。 

在 内 核 中 ， 为 了 类 型 安全 和 易 读 性 ， 优 先 使 用 内 联 函 数 而 不 是 复杂 的 宏 。 

2. 内 联 汇编 

gcc 编译 器 支持 在 C 函数 中 嵌入 汇编 指令 。 当 然 ， 在 内 核 编 程 的 时 候 ， 只 有 知道 对 应 的 体系 
结构 ， 才 能 使 用 这 个 功能 。 

我 们 通常 使 用 asm0 指令 艇 入 汇编 代码 。 例 如 ， 下 面 这 条 内 联 汇编 指令 用 于 执行 x86 处 理 器 
的 rdtsc 指令 ， 返 回 时 间 稚 (tsc) 寄存 器 的 值 : 


unsigned int low, high; 

asm volatile("rdtsc" : "=a" (low), "=d" (high)); 

/* low 和 high 分 别 包含 64 位 时 间 发 的 低 32 位 和 高 32 位 */ 

Linux 的 内 核 混合 使 用 了 C 语言 和 汇编 语言 。 在 偏 近 体系 结构 的 底层 或 对 执行 时 间 要 求 严 格 
的 地 方 ， 一 般 使 用 的 是 汇编 语言 。 而 内 核 其 他 部 分 的 大 部 分 代码 是 用 C 语言 编写 的 。 

3. 分 支 声明 

对 于 条 件 选 择 语句 ，gcc 内 建 了 一 条 指令 用 于 优化 ， 在 一 个 条 件 经 常 出 现 ， 或 者 该 条 件 很 少 
出 现 的 时 候 ， 编 译 器 可 以 根据 这 条 指令 对 条 件 分 支 选择 进行 优化 。 内 核 把 这 条 指令 封装 成 了 宏 ， 
比如 [ikelyO 和 unlikelyO0， 这 样 使 用 起 来 比较 方便 。 

例如 ， 下 面 是 一 个 条 件 选 择 语句 : 


if (error) { 


/* .oo#/ 
} 


如 果 想 要 把 这 个 选择 标记 成 绝 少 发 生 的 分 支 ; 


/* 我 们 认为 error 绝 大 多 数 时 间 都 会 为 0...*/ 
if (unlikely(error)) { 

/* ... */ 
} 


相反 ， 如 果 我 们 想 把 一 个 分 支 标记 为 通常 为 真 的 选择 : 


/* 我 们 认为 success 通常 都 不 会 为 0 */ 
if (likely(success)) { 

/* .-.. */ 
} 
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在 你 想 要 对 某 个 条 件 选择 语句 进行 优化 之 前 ， 一 定 要 搞 清楚 其 中 是 不 是 存在 这 么 一 个 条 件 ， 
在 绝 大 多 数 情 况 下 都 会 成 立 。 这 点 十 分 重要 : 如 果 你 的 判断 正确 ， 确 实 是 这 个 条 件 占 压 倒 性 的 地 
位 ， 那 么 性 能 会 得 到 提升 ; 如 果 你 搞 错 了 ， 性 能 反而 会 下 降 。 正 如 上 面 这 些 例 子 所 示 ， 通 常 在 对 
一 些 错误 条 件 进行 判断 的 时 修 会 用 到 unlikely0 和 likelyO0。 你 可 以 猜 到 ，unlikely0 在 内 核 中 会 得 
到 更 广泛 的 使 用 ， 因 为 让 语句 往往 判断 一 种 特殊 情况 。 


2.4.3 ”没有 内 存 保护 机 制 


如 果 一 个 用 户 程序 试图 进行 一 次 非法 的 内 存 访问 ， 内 核 就 会 发 现 这 个 错误 ， 发 送 SIGSEGV 
信号 ， 并 结束 整个 进程 。 然 而 ， 如 果 是 内 核 自己 非法 访问 了 内 存 ， 那 后 果 就 很 难 控制 了 。( 毕 竟 ， 
有 谁 能 照顾 内 核 呢 ? ) 内核 中 发 生 的 内 存 错误 会 导致 oops， 这 是 内 核 中 出 现 的 最 常见 的 一 类 错 
误 。 在 内 核 中 ， 不 应 该 去 做 访问 非法 的 内 存 地 址 ， 引 用 空 指针 之 类 的 事情 ， 否 则 它 可 能 会 死 掉 ， 
却 根本 不 告诉 你 一 声 一 一 在 内 核 里 ， 风 险 常 常会 比 外 面 大 一 些 。 

此 外 ， 内 核 中 的 内 存 都 不 分 页 。 也 就 是 说 ， 你 每 用 掉 一 个 字 节 ， 物 理 内 存 就 减少 一 个 字 节 。 
所 以 ， 在 你 想 往 内 核 里 加 入 什么 新 功能 的 时 候 ， 要 记 住 这 一 点 。 


2.4.4 不 要 轻易 在 内 核 中 使 用 浮 点 数 


在 用 户 空间 的 进程 内 进行 浮 点 操作 的 时 候 ， 内 核 会 完成 从 整数 操作 到 浮 点 数 操作 的 模式 转 
换 。 在 执行 浮 点 指令 时 到 底 会 做 些 什么 ， 因 体系 结构 不 同 ， 内 核 的 选择 也 不 同 ， 但 是 ， 内 核 通常 
捕获 陷阱 并 着 手 于 整数 到 浮 点 方式 的 转变 。 

与 用 户 空 间 进 程 不 同 ， 内 核 并 不 能 完美 地 支持 浮 点 操作 ， 因 为 它 本 身 不 能 陷入 。 在 内 核 中 
使 用 浮 点 数 时 ， 除 了 要 人 工 保存 和 恢复 浮 点 寄存 器 ， 还 有 其 他 一 些 琐 碎 的 事情 要 做 。 如 果 要 直 截 
了 当地 回答 ， 那 就 是 : 别 这 么 做 了 ， 除 了 一 些 极 少 的 情况 ， 不 要 在 内 核 中 使 用 浮 点 操作 。 


2.4.5 “容积 小 而 固定 的 栈 


用 户 空间 的 程序 可 以 从 栈 上 分 配 大 量 的 空间 来 存放 变量 ， 甚 至 巨大 的 结构 体 或 者 是 包含 数 以 
千 计 的 数据 项 的 数组 都 没有 问题 。 之 所 以 可 以 这 么 做 ， 是 因为 用 户 空间 的 栈 本 身 比 较 大 ， 而 且 还 
能 动态 地 增长 〈 年 长 的 开发 者 回想 一 下 DOS 那个 年 代 ， 这 种 低级 的 操作 系统 即使 在 用 户 空间 也 
只 有 固定 大 小 的 栈 )。 

内 核 栈 的 准确 大 小 随 体系 结构 而 变 。 在 x86 上 ， 栈 的 大 小 在 编译 时 配置 ， 可 以 是 4KB 也 可 
以 是 8KB。 从 历史 上 说 ， 内 核 栈 的 大 小 是 两 页 ， 这 就 意味 着 ，32 位 机 的 内 核 栈 是 SKB， 而 64 位 
机 是 16KB， 这 是 固定 不 变 的 。 每 个 处 理 器 都 有 自己 的 栈 。 

关于 内 核 栈 的 更 多 内 容 ， 会 在 后 面 的 章节 中 讨论 。 


2.4.6 同步 和 并 发 


内 核 很 容易 产生 竞争 条 件 。 和 单线 程 的 用 户 空间 程序 不 同 ， 内 核 的 许多 特性 都 要 求 能 够 并 发 
地 访问 共享 数据 ， 这 就 要 求 有 同步 机 制 以 保证 不 出 现 竞 争 条 件 ， 特 别 是 : 
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“Linux 是 抢占 多 任务 操作 系统 。 内 核 的 进程 调度 程序 即兴 对 进程 进行 调度 和 重新 调度 。 内 
核 必须 和 这 些 任务 同步 。 

“Linux 内 核 支持 对 称 多 处 理 器 系统 (SMP)。 所 以 ， 如 果 没 有 适当 的 保护 ， 同 时 在 两 个 或 两 
个 以 上 的 处 理 器 上 执行 的 内 核 代码 很 可 能 会 同时 访问 共享 的 同一 个 资源 。 

“中 断 是 异步 到 来 的 ， 完 全 不 顾及 当前 正在 执行 的 代码 。 也 就 是 说 ， 如 果 不 加 以 适当 的 保 
护 ， 中 断 完全 有 可 能 在 代码 访问 资源 的 时 候 到 来 ， 这 样 ， 中 段 处 理 程序 就 有 可 能 访问 同一 
资源 。 

* Linux 内 核 可 以 抢占 。 所 以 ， 如 果 不 加 以 适当 的 保护 ， 内 核 中 一 段 正在 执行 的 代码 可 能 会 
被 另外 一 段 代码 抢占 ， 从 而 有 可 能 导致 几 段 代码 同时 访问 相同 的 资源 。 

常用 的 解决 竞争 的 办 法 是 自 旋 锁 和 信号 量 。 我 们 将 在 后 面 的 章节 中 详细 讨论 同步 和 并 发 执行 。 


2.4.7 可 移植 性 的 重要 性 


尽管 用 户 空间 的 应 用 程序 不 太 注 意 移植 问题 ， 然 而 Linux 却 是 一 个 可 移植 的 操作 系统 ， 并 且 
要 一 直 保 持 这 种 特点 。 也 就 是 说 ， 大 部 分 C 代码 应 该 与 体系 结构 无 关 ， 在 许多 不 同体 系 结构 的 
计算 机 上 都 能 够 编译 和 执行 ， 因 此 ， 必 须 把 与 体系 结构 相关 的 代码 从 内 核 代 码 树 的 特定 目录 中 适 
当地 分 离 出 来 。 

诸如 保持 字 节 序 、64 位 对 齐 、 不 假定 字 长 和 页 面 长 度 等 一 系列 准则 都 有 助 于 移植 性 。 对 移 
植 性 的 深度 讨论 将 在 后 面 的 章节 中 进行 。 


2.5 小 结 


毫 无 疑义 ， 内 核 有 独一无二 的 特质 。 它 实施 自己 的 规则 和 奖 罚 措施 ， 拥 有 整个 系统 的 最 高 管 
理 权 。 当 然 ，Linux 内 核 的 复杂 性 和 高 门槛 与 其 他 大 型 软件 项 目 并 无 差异 。 在 内 核 开 发 之 路 上 
最 重要 的 步骤 是 要 意识 到 内 核 并 没有 那么 可 怕 。 陌 生 是 肯定 的 ， 但 真 的 就 不 可 逾越 ? 事实 并 非 
如 此 。 

本 章 和 以 前 的 章节 为 贯穿 本 书 剩余 章节 所 讨论 的 主题 黄 定 了 基础 。 在 后 续 的 每 一 章 中 ， 我 
们 都 会 涵盖 内 核 的 一 个 具体 概念 或 子 系统 。 在 探索 的 征途 中 ， 最 重要 的 是 要 阅读 和 修改 内 核 源 
代码 ， 只 有 通过 实际 的 阅读 和 实践 才 会 理解 内 核 。 内 核 源 代码 是 可 以 免费 获取 的 ， 直 接 用 就 可 
以 了 ! 


第 \3) 章 
进程 管理 


本 章 引入 进程 的 概念 ， 进 程 是 Unix 操作 系统 抽象 概念 中 最 基本 的 一 种 。 其 中 涉及 进程 的 定 
义 以 及 相关 的 概念 ， 比 如 线程 ; 然后 讨论 Linux 内 核 如 何 管理 每 个 进程 : 它们 在 内 核 中 如 何 被 列 
举 ， 如 何 创建 ， 最 终 又 如 何 消亡 。 我 们 拥有 操作 系统 就 是 为 了 运行 用 户 程序 ， 因 此 ， 进 程 管 理 就 
是 所 有 操作 系统 的 心脏 所 在 ，Linux 也 不 例外 。 


3.1 进程 


进程 就 是 处 于 执行 期 的 程序 (目标 码 存 放 在 某 种 存储 介质 上 )。 但 进程 并 不 仅仅 局 限于 一 段 
可 执行 程序 代码 (Unix 称 其 为 代码 段 ，text section)。 通 常 进程 还 要 包含 其 他 资源 ， 像 打开 的 文 
件 ， 挂 起 的 信号 ， 内 核 内 部 数据 ， 处 理 器 状态 ， 一 个 或 多 个 具有 内 存 映 射 的 内 存 地 址 空间 及 一 个 
或 多 个 执行 线程 (thread of execution)， 当 然 还 包括 用 来 存放 全 局 变量 的 数据 段 等 。 实际 上 ， 进 
程 就 是 正在 执行 的 程序 代码 的 实时 结果 。 内 核 需 要 有 效 而 又 透明 地 管理 所 有 细节 。 

执行 线程 ， 简 称 线程 〈thread)， 是 在 进程 中 活动 的 对 象 。 每 个 线程 都 拥有 一 个 独立 的 程序 
计数 器 、 进 程 栈 和 一 组 进程 寄存 器 。 内 核 调 度 的 对 象 是 线程 ， 而 不 是 进程 。 在 传统 的 Unix 系统 
中 ， 一 个 进程 只 包含 一 个 线程 ， 但 现在 的 系统 中 ， 包 含 多 个 线程 的 多 线程 程序 司空 见 惯 。 稍 后 你 
会 看 到 ，Linux 系统 的 线程 实现 非常 特别 : 它 对 线程 和 进程 并 不 特别 区 分 。 对 Linux 而 言 ， 线 程 
只 不 过 是 一 种 特殊 的 进程 罢了 。 

在 现代 操作 系统 中 ， 进 程 提供 两 种 虚拟 机 制 : 虚拟 处 理 器 和 虚拟 内 存 。 虽 然 实际 上 可 能 是 
许多 进程 正在 分 享 一 个 处 理 器 ， 但 虚拟 处 理 器 给 进程 一 种 假象 ， 让 这 些 进 程 觉得 自己 在 独 享 处 理 
器 。 第 4 章 将 详细 描述 这 种 虚拟 机 制 。 而 虚拟 内 存 让 进程 在 分 配 和 管理 内 存 时 觉得 自己 拥有 整个 
系统 的 所 有 内 存 资 源 。 第 12 章 将 描述 虚拟 内 存 机 制 。 有 趣 的 是 , 注意 在 线程 之 间 9 可 以 共享 虚拟 
内 存 ， 但 每 个 都 拥有 各 自 的 虚拟 处 理 器 。 

程序 本 身 并 不 是 进程 ， 进 程 是 处 于 执行 期 的 程序 以 及 相关 的 资源 的 总 称 。 实 际 上 ， 完 全 可 能 
存在 两 个 或 多 个 不 同 的 进程 执行 的 是 同一 个 程序 。 并 且 两 个 或 两 个 以 上 并 存 的 进程 还 可 以 共享 许 
多 诸如 打开 的 文件 、 地 址 空间 之 类 的 资源 。 

无 疑 ， 进 程 在 创建 它 的 时 刻 开始 存活 。 在 Linux 系统 中 ， 这 通常 是 调用 fork0 系统 的 结果 ， 
该 系统 调用 通过 复制 一 个 现 有 进程 来 创建 一 个 全 新 的 进程 。 调 用 fork0 的 进程 称 为 父 进程 ， 新 产 
生 的 进程 称 为 子 进程 。 在 该 调用 结束 时 ， 在 返回 点 这 个 相同 位 置 上 ， 父 进程 恢复 执行 ， 子 进程 开 
始 执行 。fork0O 系统 调用 从 内 核 返 回 两 次 : 一 次 回 到 父 进程 ， 另 一 次 回 到 新 产生 的 子 进程 。 


日 ”这 里 是 指 包含 在 同一 个 进程 中 的 线程 。 一 一 译 者 注 
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通常 ， 创 建新 的 进程 都 是 为 了 立即 执行 新 的 、 不 同 的 程序 ， 而 接着 调用 exec0 这 组 函数 
就 可 以 创建 新 的 地 址 空间 ， 并 把 新 的 程序 载 入 其 中 。 在 现代 Linux 内 核 中 ，fork0 实际 上 是 由 
clone() 系统 调用 实现 的 ， 后 者 将 在 后 面 讨论 。 

最 终 ， 程 序 通过 exit() 系统 调用 退出 执行 。 这 个 函数 会 终结 进程 并 将 其 占用 的 资源 释放 掉 。 
父 进 程 可 以 通过 wait4( 信 系 统 调用 查询 子 进程 是 否 终结 ， 这 其 实 使 得 进程 拥有 了 等 待 特定 进程 
执行 完毕 的 能 力 。 进 程 退出 执行 后 被 设置 为 僵 死 状态 ， 直 到 它 的 父 进程 调 用 wait0 或 waitpid0 
为 止 。 

注意 进程 的 另 一 个 名 字 是 任务 (task)。Linux 内 核 通常 把 进程 也 叫做 任务 。 本 书 会 交替 

使 用 这 两 个 术语 ， 不 过 我 所 说 的 任务 通常 指 的 是 从 内 核 观点 所 看 到 的 进程 。 


3.2 ”进程 描述 符 及 任务 结构 


内 核 把 进程 的 列表 存放 在 叫做 任务 队列 (task list 人 9) 的 双向 循环 链表 中 。 链 表 中 的 每 一 
项 都 是 类 型 为 task_struact、 称 为 进程 描述 符 (process descriptor) 的 结构 ， 该 结构 定义 在 <linux/ 
sched.h> 文件 中 。 进 程 描 述 符 中 包含 一 个 具体 进程 的 所 有 信息 。 

task_struct 相对 较 大 ， 在 32 位 机 器 上 ， 它 大 约 有 1.7KB。 但 如 果 考 虑 到 该 结构 内 包含 了 内 
核 管理 一 个 进程 所 需 的 所 有 信息 ， 那 么 它 的 大 小 也 算 相当 小 了 。 进 程 描述 符 中 包含 的 数据 能 完整 
地 描述 一 个 正在 执行 的 程序 : 它 打 开 的 文件 ， 进 程 的 地 址 空间 ， 挂 起 的 信号 ， 进 程 的 状态 ， 还 有 
其 他 更 多 信息 〈 见 图 3-1)。 









struct task_struct 


struct task_struct 





unsigned long state; 
int prio; 

unsigned long policy; 
struct task_struct *parent; 






struct list_head tasks; 
pid_t pid; 





进程 描述 符 


任务 队列 
图 3-1 进程 描述 符 及 任务 队列 


日 ”由 内 核 负责 实现 wait40 系统 调用 。Linux 系统 通过 C 库 通 常 要 提供 wait0、waitpidO、wait30 和 wait40 函数 。 
虽然 有 些 细微 的 语意 差别 ， 但 所 有 函数 都 返回 关于 终止 进程 的 状态 。 

昌 有 些 介绍 操作 系统 的 教材 称 这 为 任务 数组 (task array)。 由 于 Linux 实现 时 使 用 的 是 队列 而 不 是 静态 数组 ， 所 
以 就 称 作 任务 队列 。 
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3.2.1 分配 进程 描述 符 


Linux 通过 slab 分 配器 分 配 task_struct 结 构 ， 这 样 能 达到 对 象 复 用 和 缓存 着 色 (cache 
coloring) (参见 第 12 章 ) 的 目的 9。 在 2.6 以 前 的 内 核 中 ， 各 个 进程 的 task_struct 存放 在 它们 
内 核 栈 的 尾 端 。 这 样 做 是 为 了 让 那些 像 x86 那样 寄存 器 较 少 的 硬件 体系 结构 只 要 通过 栈 指针 就 
能 计算 出 它 的 位 置 ， 而 避免 使 用 额外 的 寄存 器 专门 记录 。 由 于 现在 用 slab 分 配器 动态 生成 task_ 
struct， 所 以 只 需 在 栈 底 〈 对 于 向 下 增长 的 栈 来 说 ) 或 栈 顶 (对 于 向 上 增长 的 栈 来 说 ) 创建 一 个 
新 的 结构 struct thread_info @ ( 见 图 3-2 )。 

在 x86 上 ，struct thread info 在 文件 <asm/thread info.h> 中 定义 如 下 : 


struct thread info { 


struct task struct *task; 

struct exec domain *exec_ domain; 
_u32 flags; 

_u32 status; 

_u32 cpu; 

int preempt_count; 
mm_Segment _t addr limit; 
Struct restart block restart block; 
void *Sysenter_ return; 
int vaccess err; 





- 栈 指针 


current_thread_info ()— -最 低 的 内 存 地 址 


| 
\ thread_info 有 一 个 指向 进程 描述 符 的 指针 


ss 


一 和 ”进程 的 struct task_struct 结 构 
图 3-2 进程 描述 符 和 内 核 栈 





日 通过 预先 分 配 和 重复 使 用 task_sturct， 可 以 避免 动态 分 配 和 释放 所 带 来 的 资源 消耗 ， 还 记得 吗 ， 第 1 章 说 过 ， 
Unix 的 一 个 特点 就 是 进程 创建 迅速 。 译 者 注 

日 ”寄存 器 较 弱 的 体系 结构 不 是 引入 thread_info 结构 的 唯一 原因 。 这 个 新 建 的 结构 使 在 汇编 代码 中 计算 其 偏 移 变 
得 非常 容易 。 
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每 个 任务 的 thread_info 结构 在 它 的 内 核 栈 的 尾 端 分 配 。 结 构 中 task 域 中 存放 的 是 指向 该 任 
务实 际 task_ struct 的 指针 。 


3.2.2 ”进程 描述 符 的 存放 


内 核 通过 一 个 唯一 的 进程 标识 值 (process identification value) 或 PID 来 标识 每 个 进程 。PID 是 
一 个 数 ， 表 示 为 pid t 隐 含 类 型 日 ， 实 际 上 就 是 一 个 int 类 型 。 为 了 与 老 版 本 的 Unix 和 Linux 兼容 ， 
PID 的 最 大 值 默认 设置 为 32768 (short int 短 整 型 的 最 大 值 ) , 尽管 这 个 值 也 可 以 增加 到 高 达 400 万 
(这 受 <linux/threads.h> 中 所 定义 PID 最 大 值 的 限制 )。 内 核 把 每 个 进程 的 PID 存放 在 它们 各 自 的 进 
程 描述 符 中 。 

这 个 最 大 值 很 重要 ， 因 为 它 实 际 上 就 是 系统 中 人 允许 同时 存在 的 进程 的 最 大 数目 。 尽 管 32768 
对 于 一 般 的 桌面 系统 足够 用 了 ， 但 是 大 型 服务 器 可 能 需要 更 多 进程 。 这 个 值 越 小 ， 转 一 圈 就 越 快 ， 
本 来 数值 大 的 进程 比 数值 小 的 进程 迟 运 行 ， 但 这 样 一 来 就 破坏 了 这 一 原则 。 如 果 确 实 需 要 的 话 ， 
“可 以 不 考虑 与 老式 系统 的 兼容 ， 由 系统 管理 员 通过 修改 /proc/syskernelpid max 来 提高 上 限 。 

在 内 核 中 ， 访 问 任务 通常 需要 获得 指向 其 task_struct 的 指针 。 实 际 上 ， 内 核 中 大 部 分 处 理 进 
程 的 代码 都 是 直接 通过 task_struct 进行 的 。 因 此 ， 通 过 current 宏 查 找到 当前 正在 运行 进程 的 进 
程 描 述 符 的 速度 就 显得 尤为 重要 。 硬 件 体系 结构 不 同 ， 该 宏 的 实现 也 不 同 ， 它 必须 针对 专门 的 硬 
件 体 系 结构 做 处 理 。 有 的 硬件 体系 结构 可 以 拿 出 一 个 专门 寄存 器 来 存放 指向 当前 进程 task_struct 
的 指针 ， 用 于 加 快 访问 速度 。 而 有 些 像 x86 这 样 的 体系 结构 〈 其 寄存 器 并 不 富余 )， 就 只 能 在 内 
核 栈 的 尾 端 创建 thread_info 结构 ， 通 过 计算 偏 移 间接 地 查找 task_struct 结构 。 

在 x86 系统 上 ，current 把 栈 指针 的 后 13 个 有 效 位 屏蔽 掉 ， 用 来 计算 出 thread info 的 偏 移 。 
该 操作 是 通过 current_thread_info0 函数 来 完成 的 。 汇 编 代码 如 下 : 


movl $-8192, %eax 
andl %esp, %eax 


这 里 假定 栈 的 大 小 为 8KB。 当 4KB 的 栈 启用 时 ， 就 要 用 4096， 而 不 是 8192。 

最 后 ，current 再 从 thread_info 的 task 域 中 提取 并 返回 task_struct 的 地 址 : 

current thread info()->task; 

对 比 一 下 这 部 分 在 PowerPC 上 的 实现 (IBM 基于 RISC 的 现代 微 处 理 器 )， 我 们 可 以 发 现 
PPC 当前 的 task_struct 是 保存 在 一 个 寄存 器 中 的 。 也 就 是 说 ， 在 PPC 上 ，current 宏 只 需 把 芝 寄 
存 器 中 的 值 返回 就 行 了 。 与 x86 不 一 样 ，PPC 有 足够 多 的 寄存 器 ， 所 以 它 的 实现 有 这 样 选择 的 余 
地 。 而 访问 进程 描述 符 是 一 个 重要 的 频繁 操作 ， 所 以 PPC 的 内 核 开发 者 觉得 完全 有 必要 为 此 使 
用 一 个 专门 的 寄存 器 。 


3.2.3 ”进程 状态 
进程 描述 符 中 的 state 域 描述 了 进程 的 当前 状态 ( 见 图 3-3)。 系 统 中 的 每 个 进程 都 必然 处 于 


日 ” 隐 含 类 型 指数 据 类 型 的 物理 表示 是 未 知 的 或 不 相关 的 。 
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五 种 进程 状态 中 的 一 种 。 该 域 的 值 也 必 为 下 列 五 种 状态 标志 之 一 : 

“TASK RUNNING 运行 ) 一 一 进程 是 可 执行 的 ; 它 或 者 正在 执行 ， 或 者 在 运行 队列 中 等 
待 执行 《运行 队 列 将 会 在 第 4 章 中 讨论 )。 这 是 进程 在 用 户 空间 中 执行 的 唯一 可 能 的 状态 ; 
这 种 状态 也 可 以 应 用 到 内 核 空 间 中 正在 执行 的 进程 。 

*TASK_INTERRUPTIBLE 〈 可 中 断 ) 一 一 进程 正在 睡 卢 〈( 也 就 是 说 它 被 阻塞 )， 等 待 某 些 条 
件 的 达成 。 一 旦 这 些 条 件 达 成 ， 内 核 就 会 把 进程 状态 设置 为 运行 。 处 于 此 状态 的 进程 也 会 
因为 接收 到 信和 号 而 提前 被 唤醒 并 随时 准备 投入 运行 。 

“TASK_UNINTERRUPTIBLE (不 可 中 断 ) 一 一 除了 就 算是 接收 到 信号 也 不 会 被 唤醒 或 准备 
投入 运行 外 ， 这 个 状态 与 可 打 断 状态 相同 。 这 个 状态 通常 在 进程 必须 在 等 待 时 不 受 干扰 或 
等 待 事件 很 快 就 会 发 生 时 出 现 。 由 于 处 于 此 状态 的 任务 对 信号 不 做 响应 ， 所 以 较 之 可 中 断 
状态 人 S， 使 用 得 较 少 。 

。_ TASK_TRACED 一 一 被 其 他 进程 跟踪 的 进程 ， 例 如 通过 ptrace 对 调试 程序 进行 跟踪 。 

“。_ TASK_STOPPED (停止 ) 一 一 进程 停止 执行 ; 进程 没有 投入 运行 也 不 能 投入 运行 。 通 常 
这 种 状态 发 生 在 接收 到 SIGSTOP、SIGTSTP、SIGTTIN、SIGTTOU 等 信号 的 时 候 。 此 外 ， 
在 调试 期 间接 收 到 任何 信号 ， 都 会 使 进程 进入 这 种 状态 。 





调度 程序 将 任务 投入 运行 
schedule0 函 数 调用 context_switch0 函 数 











现存 的 任务 



















调用 fork0 函 数 
并 且 创建 一 个 了 
任务 通过 
4 
TASK_RUNNING 
(正在 运行 ) 
任务 被 优先 级 
更 高 的 任务 抢占 
为 了 等 待 特定 事件 ， 
任务 在 等 待 队 列 上 睡眠 


等 待 的 事件 发 生 后 任务 被 唤醒 
并 且 被 重新 置 人 运行 队列 中 


图 3-3 进程 状态 转化 


日 这 就 是 你 在 执行 ps(1) 命令 时 ， 看 到 那些 被 标 为 DD 状态 而 又 不 能 被 杀 死 的 进程 的 原因 。 由 于 任务 将 不 响应 信 
号 ， 因 此 ， 你 不 可 能 给 它 发 送 SIGKILL 信号 。 退 一 步 说 ， 即 使 有 办 法 ， 终 结 这 样 一 个 任务 也 不 是 明知 的 选 
择 ， 因 为 该 任务 有 可 能 正在 执行 重要 的 操作 ， 甚 至 还 可 能 持 有 一 个 信号 量 。 
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3.2.4 设置 当前 进程 状态 
内 核 经 常 需要 调整 某 个 进程 的 状态 。 这 时 最 好 使 用 set task _state(task, state) 函数 ; 


set task state(ltask, state),; /* 将 任务 task 的 状态 设置 为 state */ 


该 函数 将 指定 的 进程 设置 为 指定 的 状态 。 必 要 的 时 候 ， 它 会 设置 内 存 屏障 来 强制 其 他 处 理 器 
作 重 新 排序 。( 一 般 只 有 在 SMP 系统 中 有 此 必要 。) 否则 ， 它 等 价 于 : 


task->state = state; 


set_current_state(state) 和 set_task_state(current, state) 含义 是 等 同 的 。 参 看 <linux/sched.h> 中 
对 这 些 相关 函数 实现 的 说 明 。 


3.2.5 ”进程 上 下 文 


可 执行 程序 代码 是 进程 的 重要 组 成 部 分 。 这 些 代码 从 一 个 可 执行 文件 载 入 到 进程 的 地 址 空间 
执行 。 一 般 程 序 在 用 户 空间 执行 。 当 一 个 程序 调 执 行 了 系统 调用 (参见 第 5 章 ) 或 者 触发 了 某 个 
异常 ， 它 就 陷入 了 内 核 空 间 。 此 时 ， 我 们 称 内 核 “ 代 表 进 程 执 行 ”并 处 于 进程 上 下 文中 。 在 此 上 
下 文中 current 宏 是 有 效 的 9S。 除 非 在 此 间隙 有 更 高 优先 级 的 进程 需要 执行 并 由 调度 器 做 出 了 相 
应 调整 ， 否 则 在 内 核 退出 的 时 候 ， 程 序 恢复 在 用 户 空间 会 继续 执行 。 

系统 调用 和 异常 处 理 程序 是 对 内 核 明确 定义 的 接口 。 进 程 只 有 通过 这 些 接 口才 能 陷入 内 核 
执行 一 一 对 内 核 的 所 有 访问 都 必须 通过 这 些 接口 。 


3.2.6 ”进程 家 族 树 


Unix 系统 的 进程 之 间 存 在 一 个 明显 的 继承 关系 ， 在 Linux 系统 中 也 是 如 此 。 所 有 的 进程 都 
是 PID 为 1 的 init 进程 的 后 代 。 内 核 在 系统 启动 的 最 后 阶段 启动 init 进程 。 该 进程 读 取 系统 的 初 
始 化 脚本 (initscript) 并 执行 其 他 的 相关 程序 ， 最 终 完成 系统 启动 的 整个 过 程 。 

系统 中 的 每 个 进程 必 有 一 个 父 进程 ， 相 应 的 ， 每 个 进程 也 可 以 拥有 零 个 或 多 个 子 进程 。 拥 
有 同一 个 父 进 程 的 所 有 进程 被 称 为 元 第 。 进 程 间 的 关系 存放 在 进程 描述 符 中 。 每 个 task_struct 都 
包含 一 个 指向 其 父 进程 tast_struct、 叫 做 parent 的 指针 ， 还 包含 一 个 称 为 children 的 子 进程 链表 。 
所 以 ， 对 于 当前 进程 ， 可 以 通过 下 面 的 代码 获得 其 父 进程 的 进程 描述 符 : 

struct task_ struct *my_parent = current->parent; 

同样 ， 也 可 以 按 以 下 方式 依次 访问 子 进程 : 


struct task struct *task; 
struct list head *list; 


list for each(list, &current->children) { 
task = list entry(list, struct task struct, sibling); 


日 除了 进程 上 下 文 ， 我 们 将 在 第 7 章 讨 论 中 断 上 下 文 。 在 中 断 上 下 文中 ， 系 统 不 代表 进程 执行 ， 而 是 执行 一 个 
中 断 处 理 程序 。 不 会 有 进程 去 干扰 这 些 中 断 处 理 程序 ， 所 以 此 时 不 存在 进程 上 下 文 。 
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| /* task 现在 指向 当前 的 某 个 子 进程 */ 
init 进程 的 进程 描述 符 是 作为 init task 静态 分 配 的 。 下 面 的 代码 可 以 很 好 地 演示 所 有 进程 之 
间 的 关系 : 


struct task_ struct *task; 

for (task = current; task != g&init task; task = task->parent) 

/* task 现在 指向 init */ 

实际 上 ， 你 可 以 通过 这 种 继承 体系 从 系统 的 任何 一 个 进程 出 发 查找 到 任意 指定 的 其 他 进程 。 


但 大 多 数 时 候 ， 只 需要 通过 简单 的 重复 方式 就 可 以 遍历 系统 中 的 所 有 进程 。 这 非常 容易 做 到 ， 
为 任务 队列 本 来 就 是 一 个 双向 的 循环 链表 。 对 于 给 定 的 进程 ， 获 取 链 表 中 的 下 一 个 进程 : 


list entry(task->tasks.next, struct task struct, tasks) 


获取 前 一 个 进程 的 方法 与 之 相同 : 


list entry(task->tasks.prev, struct task struct, tasks) 


这 两 个 例 程 分 别 通过 next_task(task) 宏和 prev_task(task) 宏 实 现 。 而 实际 上 ，for_ each_ 
process(task) 宏 提供 了 依次 访问 整个 任务 队列 的 能 力 。 每 次 访问 ， 任 务 指针 都 指向 链表 中 的 下 一 
个 元 素 : 


struct task struct *task; 


for_ each process (task) { 
/* 它 打 印 出 每 一 个 任务 的 名 称 和 PID*/ 
printk("%s[%d] \n", task->comm, task->pid); 


} 


特别 提醒 ”在 一 个 拥有 大 量 进程 的 系统 中 通过 重复 来 遍历 所 有 的 进程 代价 是 很 大 的 。 因 此 ， 
如 果 没 有 充足 的 理由 (或 者 别 无 他 法 )， 别 这 样 做 。 


3.3 ”进程 创建 


Unix 的 进程 创建 很 特别 。 许 多 其 他 的 操作 系统 都 提供 了 产生 (spawn〉 进程 的 机 制 ， 首 先 在 
新 的 地 址 空间 里 创建 进程 ， 读 入 可 执行 文件 ， 最 后 开始 执行 。Unix 采用 了 与 众 不 同 的 实现 方式 ， 
它 把 上 述 步 又 分 解 到 两 个 单独 的 函数 中 去 执行 : forkO 和 exec() 日 。 首 先 ，fork() 通过 拷贝 当前 进 
程 创建 一 个 子 进程 。 子 进程 与 父 进程 的 区 别 仅仅 在 于 PID〈 每 个 进程 唯一 )、PPID〈 父 进程 的 进 
程 号 ， 子 进程 将 其 设置 为 被 拷贝 进程 的 PID ) 和 某 些 资源 和 统计 量 〈 例 如 ， 挂 起 的 信号 ， 它 没有 
必要 被 继承 )。exec0 函数 负责 读 取 可 执行 文件 并 将 其 载 人 地 址 空间 开始 运行 。 把 这 两 个 函数 组 
合 起 来 使 用 的 效果 跟 其 他 系统 使 用 的 单一 函数 的 效果 相似 。 


日 exec0 在 这 里 指 所 有 exec0 一 族 的 函数 。 内 核实 现 了 execve0 函数 ， 在 此 基础 上 ， 还 实现 了 execlp0、 
execleO、execvO 和 execvp0。 
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3.3.1 写 时 拷贝 


传统 的 fork0 系统 调用 直接 把 所 有 的 资源 复制 给 新 创建 的 进程 。 这 种 实现 过 于 简单 并 且 效 率 
低下 ,. 因为 它 拷贝 的 数据 也 许 并 不 共享 ， 更 精 的 情况 是 ， 如 果 新 进程 打算 立即 执行 一 个 新 的 映 
像 ， 那 么 所 有 的 拷贝 都 将 前 功 尽 弃 。Linux 的 fork0 使 用 写 时 拷贝 (copy-on-write) 页 实现 。 写 
时 拷贝 是 一 种 可 以 推迟 甚至 免除 拷贝 数据 的 技术 。 内 核 此 时 并 不 复制 整个 进程 地 址 空间 ， 而 是 让 
父 进程 和 子 进程 共享 同一 个 拷贝 。 

只 有 在 需要 写 和 的 时 候 ， 数 据 才 会 被 复制 ， 从 而 使 各 个 进程 拥有 各 自 的 拷贝 。 也 就 是 说 ， 资 
源 的 复制 只 有 在 需要 写 和 人 的 时 候 才 进行 ， 在 此 之 前 ， 只 是 以 只 读 方 式 共 享 。 这 种 技术 使 地 址 空间 
上 的 页 的 拷贝 被 推迟 到 实际 发 生 写 入 的 时 候 才 进行 。 在 页 根本 不 会 被 写 人 的 情况 下 (举例 来 说 ， 
fork( 后 立即 调用 execO〉 它 们 就 无 须 复制 了 。 

fork0 的 实际 开销 就 是 复制 父 进程 的 页 表 以 及 给 子 进程 创建 唯一 的 进程 描述 符 。 在 一 般 情 况 
下 ， 进 程 创 建 后 都 会 马上 运行 一 个 可 执行 的 文件 ， 这 种 优化 可 以 避免 拷贝 大 量 根本 就 不 会 被 使 用 
的 数据 (地 址 空间 里 常常 包含 数 十 净 的 数据 }。 由 于 Unix 强调 进程 快速 执行 的 能 力 ， 所 以 这 个 优 
化 是 很 重要 的 。 


3.3.2 fork() 


Linux 通过 clone() 系统 调用 实现 fork()。 这 个 调用 通过 一 系列 的 参数 标志 来 指明 父 、 子 进程 
需要 共享 的 资源 《关于 这 些 标 志 更 多 的 信息 请 参考 本 章 后 面 3.4 节 )。fork()、vfork() 和 __clone () 
库 函 数 都 根据 各 自 需 要 的 参数 标志 去 调用 clone()， 然 后 由 clone0 去 调用 do_fork0。 

do_fork 完成 了 创建 中 的 大 部 分 工作 ， 它 的 定义 在 kernelfork.c 文件 中 。 该 函数 调用 copy_ 
process() 函数 ， 然 后 让 进程 开始 运行 。copy_process( 函数 完成 的 工作 很 有 意思 : 

1) 调用 dup_ task_struct() 为 新 进程 创建 一 个 内 核 栈 、thread_info 结构 和 task_struct， 这 些 值 
与 当前 进程 的 值 相同 。 此 时 ， 子 进程 和 父 进程 的 描述 符 是 完全 相同 的 。 

2) 检查 并 确保 新 创建 这 个 子 进程 后 ， 当 前 用 户 所 拥有 的 进程 数目 没有 超出 给 它 分 配 的 资源 
的 限制 。 

3) 子 进程 着 手 使 自己 与 父 进 程 区 别 开 来 。 进 程 描 述 符 内 的 许多 成 员 都 要 被 清 0 或 设 为 初始 
值 。 那 些 不 是 继承 而 来 的 进程 描述 符 成 员 ， 主 要 是 统计 信息 。task_struct 中 的 大 多 数 数据 都 依然 
未 被 修改 。 

4) 子 进程 的 状态 被 设置 为 TASK_UNINTERRUPTIBLE， 以 保证 它 不 会 投入 运行 。 

5) copy process() 调用 copy_flags() 以 更 新 task_struct 的 flags 成 员 。 表 明 进 程 是 否 拥有 超级 
用 户 权限 的 PF SUPERPRIV 标志 被 清 0。 表 明 进 程 还 没有 调用 exec(0 函数 的 PF_FORKNOEXEC 
标志 被 设置 。 

6) 调用 alloc _pid0 为 新 进程 分 配 一 个 有 效 的 PID。 

7) 根据 传递 给 clone() 的 参数 标志 ，copy_process0 拷贝 或 共享 打开 的 文件 、 文 件 系统 信息 、 
信号 处 理 函数 、 进 程 地 址 空间 和 命名 空间 等 。 在 一 般 情况 下 ， 这 些 资源 会 被 给 定 进程 的 所 有 线程 
共享 ; 否则 ， 这 些 资源 对 每 个 进程 是 不 同 的 ， 因 此 被 拷贝 到 这 里 。 
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8) 最 后 ，copy_process() 做 扫尾 工作 并 返回 一 个 指向 子 进 程 的 指针 。 

再 回 到 do_forkO 函数 ， 如 果 copy_process0 函数 成 功 返 回 ， 新 创建 的 子 进 程 被 唤醒 并 让 其 
投入 运行 。 内 核 有 意 选 择 子 进程 首先 执行 9。 因 为 一 般 子 进程 都 会 马上 调用 exec0 函数 ， 这 样 可 
以 避免 写 时 拷贝 的 额外 开销 ， 如 果 父 进程 首先 执行 的 话 ， 有 可 能 会 开始 向 地 址 空间 写 入 。 


3.3.3 vfork() 


除了 不 拷贝 父 进程 的 页 表 项 外 ，vfork0 系统 调用 和 fork0 的 功能 相同 。 子 进程 作为 父 进程 
的 一 个 单独 的 线程 在 它 的 地 址 空间 里 运行 ， 父 进程 被 阻塞 ， 直 到 子 进程 退出 或 执行 sexecO0。 子 进 
程 不 能 向 地 址 空间 写 入 。 在 过 去 的 3BSD 时 期 ， 这 个 优化 是 很 有 意义 的 ， 那 时 并 未 使 用 写 时 拷贝 
页 来 实现 fork0。 现 在 由 于 在 执行 forkO 时 引入 了 写 时 拷贝 页 并 且 明 确 了 子 进程 先 执行 ，vforkO 
的 好 处 就 仅 限于 不 拷贝 父 进程 的 页 表 项 了 。 如 果 Linux 将 来 fork() 有 了 写 时 拷贝 页 表 项 ， 那 么 
vfork0 就 彻底 没 用 了 令 。 另 外 由 于 vfork0 语意 非常 微妙 试想， 如 果 exec0 调用 失败 会 发 生 什 
么 )， 所 以 理想 情况 下 ， 系 统 最 好 不 要 调用 vfork()， 内 核 也 不 用 实现 它 。 完 全 可 以 把 vfork0 实现 
成 一 个 普 普 通通 的 fork() 一 一 实际 上 ，Linux 2.2 以 前 都 是 这 么 做 的 。 

vfork( 系统 调用 的 实现 是 通过 向 clone0 系统 调用 传递 一 个 特殊 标志 来 进行 的 。 

1) 在 调用 copy_process() 时 ，task_struct 的 vfor_done 成 员 被 设置 为 NULL。 

2) 在 执行 do_fork0 时 ， 如 果 给 定 特 别 标志 ， 则 vfork_done 会 指向 一 个 特定 地 址 。 

3) 子 进程 先 开始 执行 后 ， 父 进程 不 是 马上 恢复 执行 ， 而 是 一 直 等 待 ， 直 到 子 进程 通 过 
vfork_done 指针 向 它 发 送信 号 。 

4) 在 调用 mm_release() 时 ， 该 函数 用 于 进程 退出 内 存 地 址 空间 ， 并 且 检 查 vfork_done 是 否 
为 空 ， 如 果 不 为 空 ， 则 会 向 父 进程 发 送信 号 。 

5) 回 到 do_fork0， 父 进程 醒 来 并 返回 。 | 

如 果 一 切 执行 顺利 ， 子 进程 在 新 的 地 址 空间 里 运行 而 父 进程 也 恢复 了 在 原 地 址 空间 的 运行 。 
这 样 ， 开 销 确实 降低 了 ， 不 过 它 的 实现 并 不 是 优良 的 。 


3.4 ”线程 在 Linux 中 的 实现 


线程 机 制 是 现代 编程 技术 中 常用 的 一 种 抽象 概念 。 该 机 制 提 供 了 在 同一 程序 内 共享 内 存 地址 
空间 运行 的 一 组 线程 。 这 些 线程 还 可 以 共享 打开 的 文件 和 其 他 资源 。 线 程 机 制 支持 并 发 程序 设计 
技术 〈concurrent programming)， 在 多 处 理 器 系统 上 ， 它 也 能 保证 真正 的 并 行 处 理 〈parallelism )。 

Linux 实现 线程 的 机 制 非常 独特 。 从 内 核 的 角度 来 说 ， 它 并 没有 线程 这 个 概念 。Linux 把 所 
有 的 线程 都 当做 进程 来 实现 。 内 核 并 没有 准备 特别 的 调度 算法 或 是 定义 特别 的 数据 结构 来 表征 线 
程 。 相 反 ， 线 程 仅仅 被 视 为 一 个 与 其 他 进程 共享 某 些 资源 的 进程 。 每 个 线程 都 拥有 唯一 未 属于 自 
己 的 task_struct， 所 以 在 内 核 中 ， 它 看 起 来 就 像 是 一 个 普通 的 进程 〈 只 是 线程 和 其 他 一 些 进 程 共 
享 某 些 资源 ， 如 地 址 空间 )。 





仿 ”有趣 的 是 ， 虽 然 想 让 子 进 程 先 运行 ， 但 是 并 非 总 能 如 此 。 
全 ”有 补丁 可 以 帮助 Linux 完成 该 功能 。 这 种 特性 很 可 能 找到 自己 的 途径 而 进入 Linux 主 内 核 。 
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上 述 线程 机 制 的 实现 与 Microsoft Windows 或 是 Sun Solaris 等 操作 系统 的 实现 差异 非常 
大 。 这 些 系统 都 在 内 核 中 提供 了 专门 支持 线程 的 机 制 (这 些 系统 常常 把 线程 称 作 轻 量 级 进程 
(lightweight processes))。“ 轻 量 级 进程 ”这 种 叫 法 本 身 就 概括 了 Linux 在 此 处 与 其 他 系统 的 差 
异 。 在 其 他 的 系统 中 ， 相 较 于 重量 级 的 进程 ， 线 程 被 抽象 成 一 种 耗费 较 少 资源 ， 运 行 迅速 的 执行 单 
元 。 而 对 于 Linux 来 说 ， 它 只 是 一 种 进程 间 共享 资源 的 手段 Linux 的 进程 本 身 就 够 轻 量 级 了 ) 全 。 
举 个 例子 来 说 ， 假 如 我 们 有 一 个 包含 四 个 线程 的 进程 ， 在 提供 专门 线程 支持 的 系统 中 ， 通 常会 有 
一 个 包含 指向 四 个 不 同 线程 的 指针 的 进程 描述 符 。 该 描述 符 负责 描述 像 地 址 空间 、 打 开 的 文件 这 
样 的 共享 资源 。 线 程 本 身 再 去 描述 它 独 占 的 资源 。 相 反 ，Linux 仅仅 创建 四 个 进程 并 分 配 四 个 普 
通 的 task_sturct 结构 。 建 立 这 四 个 进程 时 指定 他 们 共享 某 些 资源 ， 这 是 相当 高 雅 的 做 法 。 


3.4.1 创建 线程 

线程 的 创建 和 普通 进程 的 创建 类 似 ， 只 不 过 在 调用 clone0 的 时 候 需 要 传递 一 些 参 数 标志 来 
指明 需要 共享 的 资源 : 

clone (CLONE WM | CLONE FS | CLONE _ FILES | CLONE SIGHAND, 0); 

上 面 的 代码 产生 的 结果 和 调用 fork0 差不多 ， 只 是 父子 俩 共享 地 址 空间 、 文 件 系统 资源 、 文 
件 描述 符 和 信号 处 理 程序 。 换 个 说 法 就 是 ， 新 建 的 进程 和 它 的 父 进 程 就 是 流行 的 所 谓 线程 。 

对 比 一 下 ， 一 个 普通 的 fork0 的 实现 是 : 

clone (SIGCHLD, 0); 
而 vfork0 的 实现 是 : 

clone (CLONE VFORK | CLONE WM | SIGCHLD, 0); 

传递 给 clone0 的 参数 标志 决定 了 新 创建 进程 的 行为 方式 和 父子 进程 之 间 共 享 的 资源 种 类 。 
表 3-1 列举 了 这 些 clone() 用 到 的 参数 标志 以 及 它们 的 作用 ， 这 些 是 在 <linux/sched.h> 中 定义 的 。 


表 3-1 clone() 参数 标志 


参数 标志 含义 
CLONE _ FILES 父子 进程 共享 打开 的 文件 
CLONE FS 父子 进程 共享 文件 系统 信息 
CLONE IDLETASK 将 PID 设置 为 0 (只 供 idle 进程 使 用 ) 
CLONE NEWNS 为 子 进 程 创建 新 的 命名 空间 
CLONE_PARENT 指定 子 进 程 与 父 进程 拥有 同一 个 父 进程 
CLONE PTRACE 继续 调试 子 进程 
CLONE SETTID 将 TD 回 写 至 用 户 空间 
CLONE SETTLS 为 子 进程 创建 新 的 TLS 
CLONE SIGHAND 父子 进程 共享 信号 处 理 函 数 及 被 阳 断 的 信号 


”作为 一 个 例子 ， 创 建 Linux 进程 所 花 时 间 和 创建 其 他 操作 系统 〈 尤 其 是 线程 ) 所 花 时 间 的 比较 测评 结果 非常 好 。 
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( 续 ) 
参数 标志 含 义 
CLONE SYSVSEM 父子 进程 共享 System V SEM_UNDO 语义 
CLONE THREAD 父子 进程 放 人 相同 的 线程 组 
CLONE_VFORK 调用 vfork0， 所 以 父 进程 准备 睡 卢 等 待 子 进程 将 其 唤醒 
CLONE UNTRACED 防止 跟踪 进程 在 子 进程 上 强制 执行 CLONE_PTRACE 
CLONE_STOP 以 TASK _STOPPED 状态 开始 进程 
CLONE SETTLS 为 子 进程 创建 新 的 TLS(thread-local storage) 
CLONE_CHILD_CLEARTID 清除 子 进程 的 TID 
CLONE_CHILD SETTID 设置 子 进程 的 TID 
CLONE PARENT SETTID 设置 父 进程 的 TD 
CLONE VM 父子 进程 共享 地 址 空间 
3.4.2 ”内 核 线 程 


内 核 经 常 需要 在 后 台 执 行 一 些 操 作 。 这 种 任务 可 以 通过 内 核 线程 (kernel thread) 完成 一 一 
独立 运行 在 内 核 空间 的 标准 进程 。 内 核 线 程 和 普通 的 进程 间 的 区 别 在 于 内 核 线 程 没有 独立 的 地 址 
空间 〈 实 际 上 指向 地 址 空间 的 mm 指针 被 设置 为 NULL)。 它 们 只 在 内 核 空间 运行 ， 从 来 不 切换 
到 用 户 空 间 去 。 内 核 进 程 和 普通 进程 一 样 ， 可 以 被 调度 ， 也 可 以 被 抢占 。 

Linux 确实 会 把 一 些 任务 交 给 内 核 线程 去 做 ， 像 flush 和 ksofirqd 这 些 任务 就 是 明显 的 例子 。 
在 装 有 Linux 系统 的 机 子 上 运行 ps -ef 命令 ， 你 可 以 看 到 内 核 线程 ， 有 很 多 ! 这 些 线程 在 系统 启 
动 时 由 另外 一 些 内 核 线 程 创建 。 实 际 上 ， 内 核 线程 也 只 能 由 其 他 内 核 线 程 创建 。 内 核 是 通过 从 
kthreadd 内 核 进 程 中 衍生 出 所 有 新 的 内 核 线程 来 自动 处 理 这 一 点 的 。 在 <linux/kthread.h> 中 申明 
有 接口 ， 于 是 ， 从 现 有 内 核 线程 中 创建 一 个 新 的 内 核 线程 的 方法 如 下 : 

struct task struct *kthread_create (int {(*threadfn) (void *data), 

void *data, 


const char namefmt [], 


Pn 


新 的 任务 是 由 kthread 内 核 进程 通过 clone() 系统 调用 而 创建 的 。 新 的 进程 将 运行 threadfn 
函数 ， 给 其 传递 的 参数 为 data。 进 程 会 被 命名 为 namefmt，namefmt 接受 可 变 参 数列 表 类 似 于 
printfO 的 格式 化 参数 。 新 创建 的 进程 处 于 不 可 运行 状态 ， 如 果 不 通 过 调用 wake_up_process() 
明确 地 唤醒 它 ， 它 不 会 主动 运行 。 创 建 一 个 进程 并 让 它 运行 起 来 ， 可 以 通过 调用 kthread_run() 
来 达到 : 


struct task struct *kthread_run(int (*threadfn) (void *data), 
void *data, 
const char namefmt [], 


...) 
这 个 例 程 是 以 宏 实 现 的 ， 只 是 简单 地 调用 了 kthread_create0 和 wake_up_process(): 
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#define kthread run{threadfn, data, namefmt, ...) 
({ 


struct task struct *k; 


k = kthread create(threadfn, data, namefmt, 拓 # _ VA ARGS ); 
if (!IS_ERR(Kk)) 
wake up_process (k); 


2 


k; 
}) 
内 核 线程 启动 后 就 一 直 运 行 直到 调用 do_exitO 退出 ， 或 者 内 核 的 其 他 部 分 调用 kthread_ 
stop() 退出 ， 传 递 给 kthread_stop() 的 参数 为 kthread_create() 函数 返回 的 task_struct 结构 的 地 址 : 


int kthread stop(struct task struct *k) 
我 们 将 在 以 后 的 内 容 中 详细 讨论 具体 的 内 核 线 程 。 
3.5 ”进程 终结 


虽然 让 人 伤感 ， 但 进程 终归 是 要 终结 的 。 当 一 个 进程 终结 时 ， 内 核 必须 释放 它 所 占有 的 资源 
并 把 这 一 不 幸 告知 其 父 进程 。 

一 般 来 说 ， 进 程 的 析 构 是 自身 引起 的 。 它 发 生 在 进程 调用 exit( 系统 调用 时 ， 既 可 能 显 式 
地 调用 这 个 系统 调用 ， 也 可 能 隐 式 地 从 某 个 程序 的 主 函 数 返回 (其 实 C 语言 编译 器 会 在 main() 
函数 的 返回 点 后 面 放置 调用 exitO 的 代码 )。 当 进程 接受 到 它 既 不 能 处 理 也 不 能 忽略 的 信号 或 异 
常 时 ， 它 还 可 能 被 动 地 终结 。 不 管 进程 是 怎么 终结 的 ， 该 任务 大 部 分 都 要 靠 do_exit() (定义 于 
kernel/exit,c) 来 完成 ， 它 要 做 下 面 这 些 烦 琐 的 工作 : 

1) 将 tast_struct 中 的 标志 成 员 设 置 为 PF_EXITING。 

2) 调用 del_timer_sync() 删除 任 一 内 核定 时 器 。 根 据 返回 的 结果 ， 它 确保 没有 定时 器 在 排 
队 ， 也 没有 定时 器 处 理 程 序 在 运行 。 

3) 如 果 BSD 的 进程 记 账 功能 是 开启 的 ，do_exit() 调用 acct update _integrals() 来 输出 记 账 
信息 。 

4) 然后 调用 exit mm0 函数 释放 进程 占用 的 mm_struact， 如 果 没 有 别 的 进程 使 用 它们 (也 就 
是 说 ， 这 个 地 址 空间 没有 被 共享 )， 就 彻底 释放 它们 。 

5) 接 下 来 调用 sem _ exitO 函数 。 如 果 进 程 排队 等 修 IPC 信号 ， 它 则 离开 队列 。 

6) 调用 exit_files() 和 exit_RO， 以 分 别 递减 文件 描述 符 、 文 件 系统 数据 的 引用 计数 。 如 果 
其 中 某 个 引用 计数 的 数值 降 为 零 ， 那 么 就 代表 没有 进程 在 使 用 相应 的 资源 ， 此 时 可 以 释放 。 

7) 接着 把 存放 在 task_struct 的 exit_code 成 员 中 的 任务 退出 代码 置 为 由 exitO 提供 的 退出 代 
码 ， 或 者 去 完成 任何 其 他 由 内 核 机 制 规定 的 退出 动作 。 退 出 代码 存放 在 这 里 供 父 进程 随时 检索 。 

8) 调用 exit_notify0 向 父 进 程 发 送信 号 ， 给 子 进程 重新 找 养父 ， 养 父 为 线程 组 中 的 其 
他 线程 或 者 为 init 进程 ， 并 把 进程 状态 (存放 在 task _struct 结构 的 exit_state 中) 设 成 EXIT_ 
ZOMBIE.。 

9) do_exit0 调用 schedule() 切换 到 新 的 进程 (参看 第 4 章 )。 因 为 处 于 EXIT ZOMBIE 状态 
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的 进程 不 会 再 被 调度 ， 所 以 这 是 进程 所 执行 的 最 后 一 段 代码 。do_exitO 永 不 返回 。 

至 此 ， 与 进程 相关 联 的 所 有 资源 都 被 释放 掉 了 【假设 该 进程 是 这 些 资 源 的 唯一 使 用 者 )。 进 
程 不 可 运行 (实际 上 也 没有 地 址 空间 让 它 运行 》 并 处 于 EXIT_ZOMBIE 退出 状态 。 它 占用 的 所 
有 内 存 就 是 内 核 栈 、thread_info 结构 和 tast_struct 结构 。 此 时 进程 存在 的 唯一 目的 就 是 向 它 的 父 
进程 提供 信息 。 父 进程 检索 到 信息 后 ， 或 者 通知 内 核 那 是 无 关 的 信息 后 ， 由 进程 所 持 有 的 剩余 内 
存 被 释放 ， 归 还 给 系统 使 用 。 


3.5.1 删除 进程 描述 符 


在 调用 了 do_exit( 之 后 ， 尽 管线 程 已 经 僵 死 不 能 再 运行 了 ， 但 是 系统 还 保留 了 它 的 进程 描 
述 符 。 前 面 说 过 ， 这 样 做 可 以 让 系统 有 办 法 在 子 进程 终结 后 仍 能 获得 它 的 信息 。 因 此 ， 进 程 终结 
时 所 需 的 清理 工作 和 进程 描述 符 的 删除 被 分 开 执 行 。 在 父 进程 获得 已 终结 的 子 进程 的 信息 后 ， 或 
者 通知 内 核 它 并 不 关注 那些 信息 后 ， 子 进程 的 task_stmct 结构 才 被 释放 。 

wait( 这 一 族 函 数 都 是 通过 唯一 (但 是 很 复杂 ) 的 一 个 系统 调用 wait4() 来 实现 的 。 它 的 标 
准 动作 是 挂 起 调用 它 的 进程 ， 直 到 其 中 的 一 个 子 进 程 退出 ， 此 时 函数 会 返回 该 子 进程 的 PID。 此 
外 ， 调 用 该 函数 时 提供 的 指针 会 包含 子 函 数 退 出 时 的 退出 代码 。 . 

当 最 终 需 要 释放 进程 描述 符 时 ，release_task0 会 被 调用 ， 用 以 完成 以 下 工作 : 

1) 它 调用 __exit_signal(), 该 函数 调用 _unhash_process(), 后 者 又 调用 detach_pidO 从 pidhash 
上 删除 该 进程 ， 同 时 也 要 从 任务 列表 中 删除 该 进程 。 

2) _exit_signal( 释放 目前 僵 死 进程 所 使 用 的 所 有 剩余 资源 ， 并 进行 最 终 统 计 和 记录 。 

3) 如 果 这 个 进程 是 线程 组 最 后 一 个 进程 ， 并 且 领 头 进程 已 经 死 掉 ， 那 么 release_task() 就 要 
通知 僵 死 的 领头 进程 的 父 进程 。 

4) release_task( 调用 put_task_structO 释放 进程 内 核 栈 和 thread_info 结构 所 占 的 页 ， 并 释放 
tast_struct 所 占 的 slab 高 速 缓存 。 

至 此 ， 进 程 描述 符 和 所 有 进程 独 享 的 资源 就 全 部 释放 掉 了 。 


3.5.2 ”孤儿 进程 造成 的 进退 维 谷 


如 果 父 进程 在 子 进程 之 前 退出 ， 必 须 有 机 制 来 保证 子 进程 能 找到 一 个 新 的 父亲 ， 否 则 这 些 成 
为 孤儿 的 进程 就 会 在 退出 时 永远 处 于 僵 死 状态 ， 白 白地 耗费 内 存 。 前 面 的 部 分 已 经 有 所 上 暗示， 对 
于 这 个 问题 ， 解 决 方法 是 给 子 进程 在 当前 线程 组 内 找 一 个 线程 作为 父亲 ， 如 果 不 行 ， 就 让 init 做 
它们 的 父 进 程 。 在 do_exit( 中 会 调用 exit_notifyO0， 该 函数 会 调用 forget_original parent()， 而 后 
者 会 调用 find_new_reaper() 来 执行 寻 父 过 程 : 


static struct task struct *find new reaper(struct task struct *father) 


{ 
struct pid namespace *pid ns = task_active_pid_ns (father); 
struct task struct *thread; 


thread = father; 
while each thread(father, thread) { 
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if (thread->flags & PF FEXITING) 
continue; 
if {unlikely (pid ns->child reaper == father)) 
pid ns->child reaper = thread; 
return thread; 


} 


if (unlikely {pid ns->child reaper == father)) { 
write unlock irq(&tasklist lock),; 
if (unlikely (pid ns == &init pid ns)) 
panic("Attempted to kill init!"); 


zap_pid ns processes (pid ns); 

write lock irqlgtasklist lock); 

/* 
* We can not clear ->child reaper or leave it alone. 
* There may by stealth EXIT DEAD tasks on ->children, 
* forget original parent() must move them somewhere. 
*y 

pid ns->child reaper = init pid ns.child reaper; 

} 


return pid ns->child reaper; 


这 段 代码 试 图 找到 进程 所 在 的 线程 组 内 的 其 他 进程 。 如 果 线程 组 内 没有 其 他 的 进程 ， 它 就 找 
到 并 返回 的 是 init 进程 。 现 在 ， 给 子 进 程 找 到 合适 的 养父 进程 了 ， 只 需要 遍历 所 有 子 进程 并 为 它 
们 设置 新 的 父 进 程 ; 


reaper = find new reaper (father); 
list for each entry_ safe(lp, n, &father->children, sibling) { 
p->real parent = reaper; 
if (p->parent == father) { 
BUG ON (p->ptrace); 
p->parent = p->real parent; 
} 


reparent thread(p, father); 


} 


然后 调用 ptrace_exit_finish() 同样 进行 新 的 寻 父 过 程 ， 不 过 这 次 是 给 ptraced 的 子 进程 寻 
找 父亲 。 


void exit ptrace(struct task struct *tracer) 
{ 

struct task struct *p, *n; 

LIST HEAD{(ptrace dead); 


write lock irq{lg&tasklist lock); 
list for each entry safe(lp, n, &tracer->ptraced, ptrace_entry) { 
if (_ ptrace detachl(tracer, p)) 
list add(g&p->ptrace entry, t&ptrace dead); 
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} 


write unlock irql(gtasklist lock); 
BUG ON{(!list empty (&tracer->ptraced)); 


list for each entry safe(lp, n, &ptrace dead, ptrace entry) { 
list del init (gp->ptrace entry); 
release task (p); 

} 

} 

这 段 代 码 遍历 了 两 个 链表 : 子 进程 链表 和 ptrace 子 进程 链表 ， 给 每 个 子 进程 设置 新 的 父 进 
程 。 这 两 个 链表 同时 存在 的 原因 很 有 意思 ， 它 也 是 2.6 内 核 的 一 个 新 特性 。 当 一 个 进程 被 跟踪 
时 ， 它 的 临时 父亲 设 定 为 调试 进程 。 此 时 如 果 它 的 父 进程 退出 了 ， 系 统 会 为 它 和 它 的 所 有 兄弟 重 
新 找 一 个 父 进 程 。 在 以 前 的 内 核 中 ， 这 就 需要 遍历 系统 所 有 的 进程 来 找 这 些 子 进程 。 现 在 的 解决 
办 法 是 在 一 个 单独 的 被 ptrace 跟踪 的 子 进程 链表 中 搜索 相关 的 兄弟 进程 一 一 用 两 个 相对 较 小 的 链 
表 减 轻 了 遍历 带 来 的 消耗 。 

一 旦 系统 为 进程 成 功 地 找到 和 设置 了 新 的 父 进程 ， 就 不 会 再 有 出 现 驻 留 僵 死 进程 的 危险 了 。 
init 进程 会 例 行 调用 wait(O 来 检查 其 子 进程 ， 清 除 所 有 与 其 相关 的 价 死 进程 。 


3.6 小结 


在 本 章 中 ， 我 们 考察 了 操作 系统 中 的 核心 概念 一 一 进程 。 我 们 也 讨论 了 进程 的 一 般 特 性 ， 
它 为 何如 此 重要 ， 以 及 进程 与 线程 之 间 的 关系 。 然 后 ， 讨 论 了 Linux 如 何 存放 和 表示 进程 (用 
task_struct 和 thread_info)， 如 何 创建 进程 (通过 fork0， 实 际 上 最 终 是 clone0)， 如 何 把 新 的 执 
行 映像 装 入 到 地 址 空间 〈 通 过 exec0 系统 调用 族 )， 如 何 表示 进程 的 层次 关系 ， 父 进程 又 是 如 
何 收集 其 后 代 的 信息 (通过 waitO 系统 调用 族 )， 以 及 进程 最 终 如 何 消亡 (强制 或 自愿 地 调用 
exit())。 进 程 是 一 个 非常 基础 、 非 常 关键 的 抽象 概念 ， 位 于 每 一 种 现代 操作 系统 的 核心 位 置 ， 也 
是 我 们 拥有 操作 系统 〈 用 来 运行 程序 ) 的 最 终 原 因 。 

第 4 章 讨论 进程 调度 ， 内 核 以 这 种 微妙 而 有 趣 的 方式 来 决定 哪个 进程 运行 ， 何 时 运行 ， 以 何 
种 顺序 运行 。 


第 (4) 章 
进程 调 居 


第 3 章 讨 论 了 进程 ， 它 在 操作 系统 看 来 是 程序 的 运行 态 表现 形式 。 本 章 将 讨论 进程 调度 程 
序 ， 它 是 确保 进程 能 有 效 工作 的 一 个 内 核子 系统 。 

调度 程序 负责 决定 将 哪个 进程 投入 运行 ， 何 时 运行 以 及 运行 多 长 时 间 。 进 程 调度 程序 (常常 
简称 调度 程序 ) 可 看 做 在 可 运行 态 进程 之 间 分 配 有 限 的 处 理 器 时 间 资 源 的 内 核子 系统 。 调 度 程序 
是 像 Linux 这 样 的 多 任务 操作 系统 的 基础 。 只 有 通过 调度 程序 的 合理 调度 ， 系 统 资源 才能 最 大 限 
度 地 发 挥 作 用 ， 多 进程 才 会 有 并 发 执行 的 效果 。 

调度 程序 没有 太 复 杂 的 原理 。 最 大 限度 地 利用 处 理 器 时 间 的 原则 是 ， 只 要 有 可 以 执行 的 进 
程 ， 那 么 就 总 会 有 进程 正在 执行 。 但 是 只 要 系统 中 可 运行 的 进程 的 数目 比 处 理 器 的 个 数 多 ， 就 注 
定 某 一 给 定时 刻 会 有 一 些 进程 不 能 执行 。 这 些 进 程 在 等 待 运行 。 在 一 组 处 于 可 运行 状态 的 进程 中 
选择 一 个 来 执行 ， 是 调度 程序 所 需 完成 的 基本 工作 。 


4.1 多 任务 


多 任务 操作 系统 就 是 能 同时 并 发 地 交互 执行 多 个 进程 的 操作 系统 。 在 单 处 理 器 机 器 上 ， 这 
会 产生 多 个 进程 在 同时 运行 的 幻觉 。 在 多 处 理 器 机 器 上 ， 这 会 使 多 个 进程 在 不 同 的 处 理 机 上 真正 
同时 、 并 行 地 运行 。 无 论 在 单 处 理 器 或 者 多 处 理 器 机 器 上 ， 多 任务 操作 系统 都 能 使 多 个 进程 处 于 
堵塞 或 者 睡眠 状态 ， 也 就 是 说 ， 实 际 上 不 被 投入 执行 ， 直 到 工作 确实 就 绪 。 这 些 任 务 尽管 位 于 内 
存 ， 但 并 不 处 于 可 运行 状态 。 相 反 ， 这 些 进 程 利用 内 核 阻 塞 自己 ， 直 到 某 一 事件 〈 键 盘 输入 、 网 
络 数据 、 过 一 段 时 间 等 ) 发 生 。 因 此 ， 现 代 Linux 系统 也 许 有 100 个 进程 在 内 存 ， 但 是 只 有 一 个 
处 于 可 运行 状态 。 

多 任务 系统 可 以 划分 为 两 类 : 非 抢 占 式 多 任务 〈cooperative multitasking) 和 抢占 式 多 任务 
(preemptive multitasking)。 像 所 有 Unix 的 变 体 和 许多 其 他 现代 操作 系统 一 样 ，Linux 提供 了 抢占 
on 在 此 模式 下 ， 由 调度 程序 来 决定 什么 时 候 停止 一 个 进程 的 运行 ， 以 便 其 他 进程 
能 够 得 到 执行 机 会 。 这 个 强制 的 挂 起 动作 就 叫做 抢占 (preemption)。 进 程 在 被 抢占 之 前 能 够 运行 
的 时 间 是 预先 设置 好 的 ， 而 且 有 一 个 专门 的 名 字 ， 叫 进程 的 时 间 片 (timeslice)。 时 间 片 实际 上 
就 是 分 配给 每 个 可 运行 进程 的 处 理 器 时 间 段 。 有 效 管理 时 间 片 能 使 调度 程序 从 系统 全 局 的 角度 做 
出 调度 决定 ， 这 样 做 还 可 以 避免 个 别 进程 独占 系统 资源 。 当 今 众多 现代 操作 系统 对 程序 运行 都 采 
用 了 动态 时 间 片 计算 的 方式 ， 并 且 引 入 了 可 配置 的 计算 策略 。 不 过 我 们 将 看 到 ，Linux 独一无二 
的 “公平 ”调度 程度 本 身 并 没有 采取 时 间 片 来 达到 公平 调度 。 

相反 ， 在 非 抢占 式 多 任务 模式 下 ， 除 非 进程 自己 主动 停止 运行 ， 否 则 它 会 一 直 执行 。 进 程 主 
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动 挂 起 自己 的 操作 称 为 让 步 《〈yielding)。 理 想 情 况 下 ， 进 程 通常 做 出 让 步 ， 以 便 让 每 个 可 运行 进 
程 享有 是 够 的 处 理 器 时 间 。 但 这 种 机 制 有 很 多 缺点 : 调度 程序 无 法 对 每 个 进程 该 执行 多 长 时 间 做 
出 统一 规定 ， 所 以 进程 独占 的 处 理 器 时 间 可 能 超出 用 户 的 预料 ; 更 粳 的 是 ， 一 个 决 不 做 出 让 步 的 
其 挂 进程 就 能 使 系统 崩溃。 幸运 的 是 ， 近 20 年 以 来 ， 绝 大 部 分 的 操作 系统 的 设计 都 采用 了 抢占 
式 多 任务 一 一 除了 Mac OS 9 (以 及 其 前 身 )、 还 有 Windows 3.1 (以 及 其 前 身 ) 这 些 出 名 且 麻 烦 
的 异端 以 外 。 毫 无 疑问 ，Unix 从 一 开始 就 采用 的 是 抢先 式 的 多 任务 。 


4.2 Linux 的 进程 调度 

从 1991 年 Linux 的 第 1 版 到 后 来 的 2.4 内 核 系列 ，Linux 的 调度 程序 都 相当 简陋 ， 设 计 近 平 
原始 。 当 然 它 很 容易 理解 ， 但 是 它 在 众多 可 运行 进程 或 者 多 处 理 器 的 环境 下 都 难以 胜任 。 

正 因为 如 此 ， 在 Linux 2.5 开发 系列 的 内 核 中 ， 调 度 程 序 做 了 大 手术 。 开 始 采 用 了 一 种 叫做 
O() 调度 程序 的 新 调度 程序 一 一 它 是 因为 其 算法 的 行为 而 得 名 的 但 。 它 解决 了 先前 版 本 Linux 调 
度 程序 的 许多 不 足 ， 引 入 了 许多 强大 的 新 特性 和 性 能 特征 。 这 里 主要 要 感谢 静态 时 间 片 算法 和 针 
对 每 一 处 理 器 的 运行 队列 ， 它 们 帮助 我 们 摆脱 了 先前 调度 程序 设计 上 的 限制 。 

O(1) 调度 器 虽然 在 拥有 数 以 十 计 《〈 不 是 数 以 百 计 ) 的 多 处 理 器 的 环境 下 尚 能 表现 出 近乎 完 
美的 性 能 和 可 扩展 性 ， 但 是 时 间 证 明 该 调度 算法 对 于 调度 那些 响应 时 间 敏 感 的 程序 却 有 一 些 先 
天 不 足 。 这 些 程序 我 们 称 其 为 交互 进程 一 一 它 无 颖 包括 了 所 有 需要 用 户 交互 的 程序 。 正 因为 如 
此 ，0O(1) 调度 程序 虽然 对 于 大 服务 器 的 工作 负载 很 理想 ， 但 是 在 有 很 多 交互 程序 要 运行 的 桌面 
系统 上 则 表现 不 佳 ， 因 为 其 缺少 交互 进程 。 自 2.6 内 核 系 统 开 发 初期 ， 开 发 人 员 为 了 提高 对 交 
互 程序 的 调度 性 能 引入 了 新 的 进程 调度 算法 。 其 中 最 为 著名 的 是 “ 反 转 楼 梯 最 后 期 限 调度 算法 
(Rotating Staircase Deadline scheduler)”(RSDL)， 该 算法 吸取 了 队列 理论 ， 将 公平 调度 的 概念 引 
入 了 Linux 调度 程序 。 并 且 最 终 在 2.6.23 内 核 版 本 中 替代 了 O(1) 调度 算法 ， 它 此 刻 被 称 为 “ 完 
全 公平 调度 算法 ”， 或 者 简称 CFS. 

本 章 将 讲解 调度 程序 设计 的 基础 和 完全 公平 调度 程序 如 何 运 用 、 如 何 设 计 、 如 何 实现 以 及 与 
它 相 关 的 系统 调用 。 我 们 当然 也 会 讲解 0(1) 调度 程序 ， 因 为 它 毕 竟 是 经 典 Unix 调度 程序 模型 的 
实现 方式 。 


4.3 策略 


策略 决定 调度 程序 在 何 时 让 什么 进程 运行 。 调 度 器 的 策略 往往 就 决定 系统 的 整体 印象 ， 并 
且 ， 还 要 负责 优化 使 用 处 理 器 时 间 。 无 论 从 哪个 方面 来 看 ， 它 都 是 至 关 重要 的 。 


4.3.1 “I/O 消耗 型 和 处 理 器 消耗 型 的 进程 
进程 可 以 被 分 为 IO 消耗 型 和 处 理 器 消耗 型 。 前 者 指 进 程 的 大 部 分 时 间 用 来 提交 IO 请 求 或 
是 等 待 IO 请 求 。 因 此 ， 这 样 的 进程 经 常 处 于 可 运行 状态 ， 但 通常 都 是 运行 短 短 的 一 会 儿 ， 因 为 


日 ”0O(D) 用 的 是 大 O 表 示 法 。 简 而 言 之 ， 它 是 指 不 管 输入 有 和 多大， 调度 程 序 都 可 以 在 恒定 时 间 内 完成 工作 。 第 6 章 
是 一 份 完整 的 大 O 表示 法 说 明 。 
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它 在 等 待 更 多 的 VO 请 求 时 最 后 总 会 阻塞 〈 这 里 所 说 的 VO 是 指 任何 类 型 的 可 阻塞 资源 ， 比 如 键 
盘 输入 ， 或 者 是 网 络 UO)。 举 例 来 说 ， 多 数 用 户 图 形 界面 程序 (GUI) 都 属于 IO 密集 型 ， 即 便 它 
们 从 不 读 取 或 者 写 人 磁盘 ， 它 们 也 会 在 多 数 时 间 里 都 在 等 竺 来自 鼠标 或 者 键盘 的 用 户 交互 操作 。 

相反 ， 处 理 器 耗费 型 进程 把 时 间 大 多 用 在 执行 代码 上 。 除 非 被 抢占 ， 否 则 它们 通常 都 一 直 
不 停 地 运行 ， 因 为 它们 没有 太 多 的 IO 需求 。 但 是 ， 因 为 它们 不 属于 IO 驱动 类 型 ， 所 以 从 系统 
响应 速度 考虑 ， 调 度 器 不 应 该 经 常 让 它们 运行 。 对 于 这 类 处 理 器 消耗 型 的 进程 ， 调 度 策略 往往 是 
尽量 降低 它们 的 调度 频率 ， 而 延长 其 运行 时 间 。 处 理 器 消耗 型 进程 的 极端 例子 就 是 无 限 循环 地 执 
行 。 更 具 代 表 性 的 例子 是 那些 执行 大 量 数学 计算 的 程序 ， 如 sshkeygen 或 者 MATLAB。 

当然 ， 这 种 划分 方法 并 非 是 绝对 的 。 进 程 可 以 同时 展示 这 两 种 行为 : 比如 ，X Window 服务 
器 既是 LO 消耗 型 ， 也 是 处 理 器 消耗 型 。 还 有 些 进程 可 以 是 IO 消耗 型 ， 但 属于 处 理 器 消耗 型 活 
动 的 范围 。 其 典型 的 例子 就 是 字 处 理 器 ， 其 通常 坐 以 等 待 键盘 输入 ， 但 在 任 一 时 刻 可 能 又 粘 住处 
理 器 疯狂 地 进行 拼写 检查 或 者 宏 计算 。 

调度 策略 通常 要 在 两 个 矛盾 的 目标 中 间 寻 找平 衡 : 进程 响应 迅速 〈 响 应 时 间 短 ) 和 最 大 系统 
利用 率 〈 高 吞吐 量 )。 为 了 满足 上 述 需 求 ， 调 度 程序 通常 采用 一 套 非常 复杂 的 算法 来 决定 最 值得 
运行 的 进程 投入 运行 ， 但 是 它 往往 并 不 保证 低 优 先 级 进程 会 被 公平 对 待 。Unix 系统 的 调度 程序 
更 倾向 于 IO 消耗 型 程序 ， 以 提供 更 好 的 程序 响应 速度 。Linux 为 了 保证 交互 式 应 用 和 桌面 系统 
的 性 能 ， 所 以 对 进程 的 响应 做 了 优化 (缩短 响应 时 间 )， 更 倾向 于 优先 调度 IO 消耗 型 进程 。 虽 
然 如 此 ， 但 在 下 面 你 会 看 到 ， 调 度 程 序 也 并 未 忽略 处 理 器 消耗 型 的 进程 。 


4.3.2 ”进程 优先 级 


调度 算法 中 最 基本 的 一 类 就 是 基于 优先 级 的 调度 。 这 是 一 种 根据 进程 的 价值 和 其 对 处 理 器 时 
间 的 需求 来 对 进程 分 级 的 想法 。 通 常 做 法 是 (其 并 未 被 Linux 系统 完全 采用 ) 优先 级 高 的 进程 先 
运行 ， 低 的 后 运行 ， 相 同 优 先 级 的 进程 按 轮转 方式 进行 调度 〈 一 个 接 一 个 ， 重 复 进 行 )。 在 某 些 
系统 中 ， 优 先 级 高 的 进程 使 用 的 时 间 片 也 较 长 。 调 度 程 序 总 是 选择 时 间 片 未 用 尽 而 且 优 先 级 最 高 
的 进程 运行 。 用 户 和 系统 都 可 以 通过 设置 进程 的 优先 级 来 影响 系统 的 调度 。 

Linux 采用 了 两 种 不 同 的 优先 级 范围 。 第 一 种 是 用 nice 值 ， 它 的 范围 是 从 一 20 到 +19， 软 
认 值 为 0 ; 越 大 的 nice 值 意味 着 更 低 的 优先 级 一 一 nice 似乎 意味 着 你 对 系统 中 的 其 他 进程 更 “ 优 
待 ”。 相 比 高 nice 值 〈 低 优先 级 ) 的 进程 ， 低 nice 值 〈 高 优先 级 ) 的 进程 可 以 获得 更 多 的 处 理 器 
时 间 。nice 值 是 所 有 Unix 系统 中 的 标准 化 的 概念 一 一 但 不 同 的 Unix 系统 由 于 调度 算法 不 同 ， 因 
此 nice 值 的 运用 方式 有 所 差异 。 比 如 一 些 基于 Unix 的 操作 系统 ， 如 Mac OS X， 进 程 的 nice 值 
代表 分 配给 进程 的 时 间 片 的 绝对 值 ; 而 Linux 系统 中 ，nice 值 则 代表 时 间 片 的 比例 。 你 可 以 通过 
ps-el 命令 查看 系统 中 的 进程 列表 ， 结 果 中 标记 N1 的 一 列 就 是 进程 对 应 的 nice 值 。 

第 二 种 范围 是 实时 优先 级 ， 其 值 是 可 配置 的 ， 默 认 情况 下 它 的 变化 范围 是 从 0 到 99 (包括 0 
和 99)。 与 nice 值 意义 相反 ， 越 高 的 实时 优先 级 数值 意味 着 进程 优先 级 越 高 。 任 何 实时 进程 的 优 
先 级 都 高 于 普通 的 进程 ， 也 就 是 说 实时 优先 级 和 mice 优先 级 处 于 互 不 相交 的 两 个 范畴 。Linux 实 
时 优先 级 的 实现 参考 了 Unix 相关 标准 一 一 特别 是 POSIX.lb。 大 部 分 现代 的 Unix 操作 系统 也 都 
提供 类 似 的 机 制 。 你 可 以 通过 命令 : 
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ps-eo state,uid,pid,ppid,rtprio,time, comm. 


查看 到 你 系统 中 的 进程 列表 ， 以 及 它们 对 应 的 实时 优先 级 (位 于 RTPRIO 列 下 )， 其 中 如 果 有 进 
程 对 应 列 显 示 “-”， 则 说 明 它 不 是 实时 进程 。 


4.3.3 时间 片 


时 间 片 9 是 一 个 数值 ， 它 表明 进程 在 被 抢占 前 所 能 持续 运行 的 时 间 。 调 度 策略 必须 规定 一 
个 默认 的 时 间 片 ， 但 这 并 不 是 件 简单 的 事 。 时 间 片 过 长 会 导致 系统 对 交互 的 响应 表现 欠 佳 ， 让 
人 觉得 系统 无 法 并 发 执行 应 用 程序 ; 时 间 片 太 短 会 明显 增 大 进程 切换 带 来 的 处 理 器 耗 时 ， 因 
为 肯定 会 有 相当 一 部 分 系统 时 间 用 在 进程 切换 上 ， 而 这 些 进程 能 够 用 来 运行 的 时 间 片 却 很 短 。 
此 外 ，L/O 消耗 型 和 处 理 器 消耗 型 的 进程 之 间 的 矛盾 在 这 里 也 再 次 显露 出 来 : IO 消耗 型 不 需要 
长 的 时 间 片 ， 而 处 理 器 消耗 型 的 进程 则 希望 越 长 越 好 《比如 这 样 可 以 让 它们 的 高 速 缓 存 命中 率 
更 高 )。 

从 上 面 的 争论 中 可 以 看 出 ， 任 何 长 时 间 片 都 将 导致 系统 交互 表现 欠 佳 。 很 多 操作 系统 中 都 特 
别 重视 这 一 点 ， 所 以 默认 的 时 间 片 很 短 ， 如 10ms。 但 是 Linux 的 CFS 调度 器 并 没有 直接 分 配 时 
间 片 到 进程 ， 它 是 将 处 理 器 的 使 用 比划 分 给 了 进程 。 这 样 一 来 ， 进 程 所 获得 的 处 理 器 时 间 其 实 是 
和 系统 负载 密切 相关 的 。 这 个 比例 进一步 还 会 受 进程 nice 值 的 影响 ，nice 值 作为 权重 将 调整 进程 
所 使 用 的 处 理 器 时 间 使 用 比 。 具 有 更 高 nice 值 (更 低 优先 权 〉 的 进程 将 被 赋予 低 权 重 ， 从 而 立 
失 一 小 部 分 的 处 理 器 使 用 比 ; 而 具有 更 小 nice 值 〈 更 高 优先 级 ) 的 进程 则 会 被 赋予 高 权重 ， 从 
而 抢 得 更 多 的 处 理 器 使 用 比 。 

像 前 面 所 说 的 ，Linux 系统 是 抢占 式 的 。 当 一 个 进程 进入 可 运行 态 ， 它 就 被 准许 投入 运行 。 
在 多 数 操作 系统 中 ， 是 否 要 将 一 个 进程 立刻 投入 运行 〈 也 就 是 抢占 当前 进程 )， 是 完全 由 进程 优 
先 级 和 是 否 有 时 间 片 决定 的 。 而 在 Linux 中 使 用 新 的 CFS 调度 器 ， 其 抢占 时 机 取决 于 新 的 可 运 
行程 序 消耗 了 多 少 处 理 器 使 用 比 。 如 果 消 耗 的 使 用 比比 当前 进程 小 ， 则 新 进程 立刻 投入 运行 ， 抢 
占 当 前 进程 。 否 则 ， 将 推迟 其 运行 。 


4.3.4 调度 策略 的 活动 


想象 下 面 这 样 一 个 系统 ， 它 拥有 两 个 可 运行 的 进程 : 一 个 文字 编辑 程序 和 一 个 视频 编码 
程序 。 文 字 编 辑 程序 显然 是 WO 消耗 型 的 ， 因 为 它 大 部 分 时 间 都 在 等 待 用 户 的 键盘 输入 〈 无 论 
用 户 的 输入 速度 有 多 快 ， 都 不 可 能 赶 上 处 理 的 速度 )。 用 户 总 是 希望 按 下 键 系统 就 能 马上 响应 。 
相反 ， 视 频 编码 程序 是 处 理 器 消耗 型 的 。 除 了 最 开始 从 磁盘 上 读 出 原始 数据 流 和 最 后 把 处 理 好 
的 视频 输出 外 ， 程 序 所 有 的 时 间 都 用 来 对 原始 数据 进行 视频 编码 ， 处 理 器 很 轻易 地 被 100% 使 
用 。 它 对 什么 时 间 开 始 运行 没有 太 严 格 的 要 求 一 用 户 几 乎 分 辨 不 出 也 并 不 关心 它 到 底 是 立刻 
就 运行 还 是 半 秒 钟 以 后 才 开 始 的 。 当 然 ， 它 完成 得 越 早 越 好 ， 至 于 所 花 时 间 并 不 是 我 们 关注 的 
主要 问题 。 





日 在 其 他 系统 中 ， 时 间 片 有 时 也 称 为 量子 (quantuam〉 或 处 理 器 片 (processor slice)。 但 Linux 把 它 叫做 时 间 片 ， 
因此 你 也 最 好 这 样 叫 。 
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在 这 样 的 场景 中 ， 理 想 情 况 是 调度 器 应 该 给 予 文 本 编辑 程序 相 比 视频 编码 程序 更 多 的 处 理 
器 时 间 ， 因 为 它 属 于 交互 式 应 用 。 对 文本 编辑 器 而 言 ， 我 们 有 两 个 目标 。 第 一 是 我 们 希望 系统 
给 它 更 多 的 处 理 器 时 间 ， 这 并 非 因为 它 需 要 更 多 的 处 理 器 时 间 〈 其 实 它 不 需要 )， 是 因为 我 们 希 
望 在 它 需 要 时 总 是 能 得 到 处 理 器 ; 第 二 是 我 们 希望 文本 编辑 器 能 在 其 被 唤醒 时 〈 也 就 是 当 用 户 打 
字 时 ) 抢占 视频 解码 程序 。 这 样 才 能 确保 文本 编辑 器 具有 很 好 的 交互 性 能 ， 以 便 能 响应 用 户 输 
入 。 在 多 数 操作 系统 中 ， 上 述 目 标的 达成 是 要 依靠 系统 分 配给 文本 编辑 器 比 视频 解码 程序 更 高 的 
优先 级 和 更 多 的 时 间 片 。 先 进 的 操作 系统 可 以 自动 发 现 文本 编辑 器 是 交互 性 程序 ， 从 而 自动 地 完 
成 上 述 分 配 动作 。Linux 操作 系统 同样 需要 追求 上 述 目标 ， 但 是 它 采 用 不 同方 法 。 它 不 再 通过 给 
文本 编辑 器 分 配给 定 的 优先 级 和 时 间 片 ， 而 是 分 配 一 个 给 定 的 处 理 器 使 用 比 。 假 如 文本 编辑 器 
和 视频 解码 程序 是 仅 有 的 两 个 运行 进程 ， 并 且 又 具有 同样 的 nice 值 ， 那 么 处 理 器 的 使 用 比 将 都 
是 50% 一 一 它们 平分 了 处 理 器 时 间 。 但 因为 文本 编辑 器 将 更 多 的 时 间 用 于 等 待 用 户 输入 ， 因 此 它 
肯定 不 会 用 到 处 理 器 的 50%。 同 时 ， 视 频 解码 程序 无 疑 将 能 有 机 会 用 到 超过 50% 的 处 理 器 时 间 ， 
以 便 它 能 更 快速 地 完成 解码 任务 。 

这 里 关键 的 问题 是 ， 当 文本 编辑 器 程序 被 唤醒 时 将 发 生 什 么 。 我 们 首要 目标 是 确保 其 能 在 用 
户 输入 发 生 时 立刻 运行 。 在 上 述 场景 中 ， 一 旦 文本 编辑 器 被 唤醒 ，CFS 注意 到 给 它 的 处 理 器 使 用 
比 是 50%， 但 是 其 实 它 却 用 得 少 之 又 少 。 特 别 是 ，CFS 发 现 文本 编辑 器 比 视频 解码 器 运行 的 时 间 
短 得 多 。 这 种 情况 下 ， 为 了 兑现 让 所 有 进程 能 公平 分 享 处 理 器 的 承诺 ， 它 会 立刻 抢占 视频 解码 程 
序 ， 让 文本 编辑 器 投入 运行 。 文 本 编辑 器 运行 后 ， 立 即 处 理 了 用 户 的 击 键 输入 后 ， 又 一 次 进入 睡 
眠 等 待 用 户 下 一 次 输入 。 因 为 文本 编辑 器 并 没有 消费 掉 承 诺 给 它 的 50% 处 理 器 使 用 比 ， 因 此 情 
况 依 旧 ，CFS 总 是 会 毫 不 犹 隐 地 让 文本 编辑 器 在 需要 时 被 投入 运行 ， 而 让 视频 处 理 程序 只 能 在 剩 
下 的 时 刻 运行 。 


4.4 Linux 调度 算法 


在 前 面 内 容 中 ， 我 们 抽象 地 讨论 了 进程 调度 原理 ， 只 是 偶尔 提 及 Linux 如 何 把 给 定 的 理论 应 
用 到 实际 中 。 在 已 有 的 调度 原理 基础 上 ， 我 们 进一步 探讨 具有 Linux 特色 的 进程 调度 程序 。 


4.4.1 调度 器 类 


Linux 调度 器 是 以 模块 方式 提供 的 ， 这 样 做 的 目的 是 允许 不 同类 型 的 进程 可 以 有 针对 性 地 选 
择 调度 算法 。 

这 种 模块 化 结构 被 称 为 调度 器 类 (scheduler classes)， 它 允许 多 种 不 同 的 可 动态 添加 的 调度 
算法 并 存 ， 调 度 属于 自己 范畴 的 进程 。 每 个 调度 器 都 有 一 个 优先 级 ， 基 础 的 调度 器 代码 定义 在 
kernelsched.c 文件 中 ， 它 会 按照 优先 级 顺序 遍历 调度 类 ， 拥 有 一 个 可 执行 进程 的 最 高 优先 级 的 调 
度 器 类 胜出 ， 去 选择 下 面 要 执行 的 那 一 个 程序 。 

完全 公平 调度 (CFS〉 是 一 个 针对 普通 进程 的 调度 类 ， 在 Linux 中 称 为 SCHED_NORMAL 
(在 POSIX 中 称 为 SCHED_ OTHER) , CFS 算法 实现 定义 在 文件 kernel/sched fair.c 中 。 本 节 下 面 
的 内 容 将 重点 讨论 CFS 算法 一 一 该 内 容 对 于 所 有 2.6.23 以 后 的 内 核 版 本 意义 非凡 。 另 外 ， 我 们 
将 在 4.4.2 小 节 讨 论 实时 进程 的 调度 类 。 
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4.4.2 ”Unix 系统 中 的 进程 调度 


在 讨论 公平 调度 算法 前 ， 我 们 必须 首先 认识 一 下 传统 Unix 系统 的 调度 过 程 。 正 如 前 面 所 
述 ， 现 代 进 程 调度 器 有 两 个 通用 的 概念 : 进程 优先 级 和 时 间 片 。 时 间 片 是 指 进程 运行 多 少时 间 ， 
进程 一 旦 启动 就 会 有 一 个 默认 时 间 片 。 具 有 更 高 优先 级 的 进程 将 运行 得 更 频繁 ,而且 (在 多 数 系 
统 上 ) 也 会 被 赋予 更 多 的 时 间 片 。 在 Unix 系统 上 ， 优 先 级 以 mice 值 形式 输出 给 用 户 空间 。 这 点 
听 起 来 简单 ， 但 是 在 现实 中 ， 却 会 导致 许多 反常 的 问题 ， 我 们 下 面具 体 讨论 。 

第 一 个 问题 ， 若 要 将 nice 值 映射 到 时 间 片 ， 就 必然 需要 将 nice 单位 值 对 应 到 处 理 器 的 绝对 
时 间 。 但 这 样 做 将 导致 进程 切换 无 法 最 优化 进行 。 举 例 说 明 ， 假 定 我 们 将 默认 nice 值 (0) 分配 
给 一 个 进程 一 一 对 应 的 是 一 个 100ms 的 时 间 片 ; 同时 再 分 配 一 个 最 高 nice 值 (+20， 最 低 的 优先 
级 ) 给 另 一 个 进程 一 一 对 应 的 时 间 片 是 5ms。 我 们 接着 假定 上 述 两 个 进程 都 处 于 可 运行 状态 。 那 
么 默认 优先 级 的 进程 将 获得 20/21 (105ms 中 的 100ms) 的 处 理 器 时 间 ， 而 低 优先 级 的 进程 会 获 
得 1/21 (105ms 中 的 5ms〉 的 处 理 器 时 间 。 我 们 本 可 以 选择 任意 数值 用 于 本 例子 中 ， 但 这 个 分 配 
值 正好 是 最 具 说 服 力 的 ， 所 以 我 们 选择 它 。 现 在 ， 我 们 看 看 如 果 运 行 两 个 同等 低 优先 级 的 进程 情 
况 将 如 何 。 我 们 是 希望 它们 能 各 自 获得 一 半 的 处 理 器 时 间 ， 事 实 上 也 确实 如 此 。 但 是 任何 一 个 进 
程 每 次 仅仅 只 能 获得 5ms 的 处 理 器 时 间 (10ms 中 各 占 一 半 )。 也 就 是 说 ， 相 比 刚才 例子 中 105ms 
内 进行 一 次 上 下 文 切换 ， 现 在 则 需要 在 10ms 内 继续 进行 两 次 上 下 文 切换 。 类 推 ， 如 果 是 两 个 具 
有 普通 优先 级 的 进程 ， 它 们 同样 会 每 个 获得 50% 处 理 器 时 间 ， 但 是 是 在 100ms 内 各 获得 一 半 。 
显然 ， 我 们 看 到 这 些 时 间 片 的 分 配方 式 并 不 很 理想 : 它们 是 给 定 mice 值 到 时 间 片 映射 与 进程 运 
行 优先 级 混合 的 共同 作用 结果 。 事 实 上 ， 给 定 高 nice 值 〈 低 优先 级 ) 的 进程 往往 是 后 台 进 程 ， 
且 多 是 计算 密集 型 ; 而 普通 优先 级 的 进程 则 更 多 是 前 台 用 户 任务 。 所 以 这 种 时 间 片 分 配方 式 显然 
是 和 初衷 背道而驰 的 。 

第 二 个 问题 涉及 相对 nice 值 ， 同 时 和 前 面 的 nice 值 到 时 间 片 映射 关系 也 脱 不 了 干系 。 假 设 
我 们 有 两 个 进程 ， 分 别 具 有 不 同 的 优先 级 。 第 一 个 假设 nice 值 只 是 0， 第 二 个 假设 是 1。 它 们 将 
被 分 别 映射 到 时 间 片 100ms 和 95ms(O (1) 调度 算法 确实 这 么 干 了 )。 它 们 的 时 间 片 几乎 一 样 ， 
其 差别 微乎其微 。 但 是 如 果 我 们 的 进程 分 别 赋予 18 和 19 的 mice 值 ， 那 么 它们 则 分 别 被 映射 为 
10ms 和 5ms 的 时 间 片 。 如 果 这 样 ， 前 者 相 比 后 者 获得 了 两 倍 的 处 理 器 时 间 ! 不 过 mice 值 通常 都 
使 用 相对 值 (nice 系统 调用 是 在 原 值 上 增加 或 减少 ， 而 不 是 在 绝对 值 上 操作 )， 也 就 是 说 :“ 把 进 
程 的 nice 值 减 小 1” 所 带 来 的 效果 极 大 地 取决 于 其 nice 的 初始 值 。 

第 三 个 问题 ， 如 果 执 行 nice 值 到 时 间 片 的 映射 我们 需要 能 分 配 一 个 绝对 时 间 片 ， 而 且 这 
个 绝对 时 间 片 必须 能 在 内 核 的 测试 范围 内 。 在 多 数 操作 系统 中 ， 上 述 要 求 意味 着 时 间 片 必须 是 
定时 器 节拍 的 整数 倍 〈 请 先 参 看 第 11 章 “ 定 时 器 和 时 间 测 量 ” 关 于 时 间 的 讨论 )。 但 这 么 做 必然 
会 引发 了 几 个 问题 。 首 先 ， 最 小 时 间 片 必然 是 定时 器 节拍 的 整数 倍 ， 也 就 是 10ms 或 者 lms 的 倍 
数 。 其 次 ， 系 统 定时 器 限制 了 两 个 时 间 片 的 差异 : 连续 的 nice 值 映 射 到 时 间 片 ， 其 差别 范围 多 
至 10ms 或 者 少 则 lms。 最 后 ， 时 间 片 还 会 随 着 定时 器 节拍 改变 〈 如 果 这 里 所 讨论 的 定时 器 节拍 
对 你 来 说 很 陌生 ， 快 去 先 看 看 第 11 章 再 说 。 因 为 这 点 正 是 引入 CFS 的 唯一 原因 )。 

第 四 个 问题 也 是 最 后 一 个 是 关于 基于 优先 级 的 调度 器 为 了 优化 交互 任务 而 唤醒 相关 进程 的 问 
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题 。 这 种 系统 中 ， 你 可 能 为 了 进程 能 更 快 地 投入 运行 ， 而 去 对 新 要 唤醒 的 进程 提升 优先 级 ， 即 便 
它们 的 时 间 片 已 经 用 尽 了 。 虽 然 上 述 方法 确实 能 提升 不 少 交互 性 能 ， 但 是 一 些 例外 情况 也 有 可 能 
发 生 ， 因 为 它 同 时 也 给 某 些 特殊 的 睡眠 /唤醒 用 例 一 个 玩弄 调度 器 的 后 门 ， 使 得 给 定 进程 打破 公 
平原 则 ， 获 得 更 多 处 理 器 时 间 ， 损 害 系 统 中 其 他 进程 的 利益 。 

上 述 问 题 中 的 绝 大 多 数 都 可 以 通过 对 传统 Unix 调度 器 进行 改造 解决 ， 虽 然 这 种 改造 修改 不 
小 ， 但 也 并 非 是 结构 性 调整 。 比 如 ， 将 nice 值 呈 几何 增加 而 非 算数 增加 的 方式 解决 第 二 个 问题 ; 
采用 一 个 新 的 度量 机 制 将 从 nice 值 到 时 间 片 的 映射 与 定时 器 节拍 分 离开 来 ， 以 此 解决 第 三 个 问 
题 。 但 是 这 些 解决 方案 都 回避 了 实质 问题 一 一 即 分 配 绝对 的 时 间 片 引发 的 固定 的 切换 频率 ， 给 公 
平 性 造成 了 很 大 变数 。CFS 采用 的 方法 是 对 时 间 片 分 配方 式 进行 根本 性 的 重新 设计 〈 就 进程 调度 
器 而 言 ) : 完全 握 弃 时 间 片 而 是 分 配给 进程 一 个 处 理 器 使 用 比重 。 通 过 这 种 方式 ，CFS 确保 了 进 
程 调度 中 能 有 恒定 的 公平 性 ， 而 将 切换 频率 置 于 不 断 变动 中 。 


4.4.3 ”公平 调度 


CFS 的 出 发 点 基于 一 个 简单 的 理念 : 进程 调度 的 效果 应 如 同系 统 具 备 一 个 理想 中 的 完美 多 
任务 处 理 器 。 在 这 种 系统 中 ， 每 个 进程 将 能 获得 1/n 的 处 理 器 时 间 一 一 n 是 指 可 运行 进程 的 数量 。 
同时 ， 我 们 可 以 调度 给 它们 无 限 小 的 时 间 周 期 ， 所 以 在 任何 可 测量 周期 内 ， 我 们 给 予 n 个 进程 中 
每 个 进程 同样 多 的 运行 时 间 。 举例 来 说 ， 假 如 我 们 有 两 个 运行 进程 ， 在 标准 Unix 调度 模型 中 ， 
我 们 先 运行 其 中 一 个 Sms， 然 后 再 运行 另 一 个 Sms。 但 它们 任何 一 个 运行 时 都 将 占有 100% 的 处 
理 器 。 而 在 理想 情况 下 ， 完 美的 多 任务 处 理 器 模型 应 该 是 这 样 的 : 我 们 能 在 10ms 内 同时 运行 两 
个 进程 ， 它 们 各 自 使 用 处 理 器 一 半 的 能 力 。 

当然 ， 上 述 理想 模型 并 非 现 实 ， 因 为 我 们 无 法 在 一 个 处 理 器 上 真 的 同时 运行 多 个 进程 。 而 且 
如 果 每 个 进程 运行 无 限 小 的 时 间 周 期 也 是 不 高 效 的 一 一 因为 调度 时 进程 抢占 会 带 来 一 定 的 代价 : 
将 一 个 进程 换 出 ， 另 一 个 换 入 本 身 有 消耗 ， 同 时 还 会 影响 到 缓存 的 效率 。 因 此 虽然 我 们 希望 所 有 
进程 能 只 运行 一 个 非常 短 的 周期 ， 但 是 CFS 充分 考虑 了 这 将 带 来 的 额外 消耗 ， 实 现 中 首先 要 确 
保 系统 性 能 不 受 损失 。CFS 的 做 法 是 允许 每 个 进程 运行 一 段 时 间 、 循 环 轮转 、 选 择 运 行 最 少 的 进 
程 作为 下 一 个 运行 进程 ， 而 不 再 采用 分 配给 每 个 进程 时 间 片 的 做 法 了 ，CFS 在 所 有 可 运行 进程 总 
数 基础 上 计算 出 一 个 进程 应 该 运行 多 久 ， 而 不 是 依靠 nice 值 来 计算 时 间 片 。nice 值 在 CFS 中 被 
作为 进程 获得 的 处 理 器 运行 比 的 权重 : 越 高 的 nice 值 ( 越 低 的 优先 级 ) 进程 获得 更 低 的 处 理 器 
使 用 权重 ， 这 是 相对 默认 nice 值 进程 的 进程 而 言 的 ; 相反 ， 更 低 的 nice 值 〈 越 高 的 优先 级 ) 的 
进程 获得 更 高 的 处 理 器 使 用 权重 。 

每 个 进程 都 按 其 权重 在 全 部 可 运行 进程 中 所 占 比 例 的 “时 间 片 ”来 运行 ， 为 了 计算 准确 的 时 
间 片 ，CFS 为 完美 多 任务 中 的 无 限 小 调度 周期 的 近似 值 设立 了 一 个 目标 。 而 这 个 目标 称 作 “目标 
延迟 ”， 越 小 的 调度 周期 将 带 来 越 好 的 交互 性 ， 同 时 也 更 接近 完美 的 多 任务 。 但 是 你 必须 承受 更 
高 的 切换 代价 和 更 差 的 系统 总 吞吐 能 力 。 让 我 们 假定 目标 延迟 值 是 20ms， 我 们 有 两 个 同样 优先 
级 的 可 运行 任务 〈 无 论 这 些 任务 的 优先 级 是 多 少 )。 每 个 任务 在 被 其 他 任务 抢占 前 运行 10ms， 如 
果 我 们 有 4 个 这 样 的 任务 ， 则 每 个 只 能 运行 Sms。 进 一 步 设想 ， 如 果 有 20 个 这 样 的 任务 ， 那 么 
每 个 仅仅 只 能 获得 1ms 的 运行 时 间 。 
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你 一 定 注意 到 了 ， 当 可 运行 任务 数量 趋 于 无 限时 ， 它 们 各 自 所 获得 的 处 理 器 使 用 比 和 时 间 片 
都 将 趋 于 0。 这 样 无 疑 造成 了 不 可 接受 的 切换 消耗 。CFS 为 此 引入 每 个 进程 获得 的 时 间 片 底线 ， 
这 个 底线 称 为 最 小 粒度 。 默 认 情况 下 这 个 值 是 lms。 如 此 一 来 ， 即 便 是 可 运行 进程 数量 趋 于 无 
穷 ， 每 个 最 少 也 能 获得 1ms 的 运行 时 间 ， 确 保 切换 消耗 被 限制 在 一 定 范 围 内 。 (敏锐 的 读者 会 广 
意 到 假如 在 进程 数量 变 得 非常 多 的 情况 下 ，CFS 并 非 一 个 完美 的 公平 调度 ， 因 为 这 时 处 理 器 时 间 
” 片 再 小 也 无 法 突破 最 小 粒度 。 的 确 如 此 ， 尽 管 修 改过 的 公平 队列 方法 确实 能 提高 这 方面 的 公平 
性 ， 但 是 CFS 的 算法 本 身 其 实 已 经 决定 在 这 方面 做 出 折 中 了 。 但 还 好 ， 因 为 通常 情况 下 系统 中 
只 会 有 几 百 个 可 运行 进程 ， 无 疑 ， 这 时 CFS 是 相当 公平 的 。》 

现在 ， 让 我 们 再 来 看 看 具有 不 同 nice 值 的 两 个 可 运行 进程 的 运行 情况 一 一 比如 一 个 具有 默 
认 nice 值 (0)， 另 一 个 具有 的 nice 值 是 5。 这 些 不 同 的 nice 值 对 应 不 同 的 权重 ， 所 以 上 述 两 个 
进程 将 获得 不 同 的 处 理 器 使 用 比 。 在 这 个 例子 中 ，nice 值 是 5 的 进程 的 权重 将 是 默认 nice 进程 的 
1/3。 如 果 我 们 的 目标 延迟 是 20ms， 那 么 这 两 个 进程 将 分 别 获得 15ms 和 5ms 的 处 理 器 时 间 。 再 
比如 我 们 的 两 个 可 运行 进程 的 nice 值 分 别 是 10 和 15， 它 们 分 配 的 时 间 片 将 是 多 少 呢 ?还 是 15 
和 Sms ! 可 见 ， 绝 对 的 nice 值 不 再 影响 调度 决策 : 只 有 相对 值 才 会 影响 处 理 器 时 间 的 分 配 比 例 。 

总 结 一 下 ， 任 何 进程 所 获得 的 处 理 器 时 间 是 由 它 自己 和 其 他 所 有 可 运行 进程 nice 值 的 相对 
差 值 决定 的 。nice 值 对 时 间 片 的 作用 不 再 是 算数 加 权 ， 而 是 几何 加 权 。 任 何 nice 值 对 应 的 绝对 时 
间 不 再 是 一 个 绝对 值 ， 而 是 处 理 器 的 使 用 比 。CFS 称 为 公平 调度 器 是 因为 它 确保 给 每 个 进程 公平 
的 处 理 器 使 用 比 。 正 如 我 们 知道 的 ，CFS 不 是 完美 的 公平 ， 它 只 是 近 平 完美 的 多 任务 。 但 是 它 确 
实在 多 进程 环境 下 ， 降 低 了 调度 延迟 带 来 的 不 公平 性 。 


4.5 Linux 调度 的 实现 


在 讨论 了 采用 CFS 调度 算法 的 动机 和 其 内 部 逻辑 后 ， 我 们 现在 可 以 开始 具体 探索 CFS 是 如 
何 得 以 实现 的 。 其 相关 代码 位 于 文件 kernel/sched_fair.c 中 . 我 们 将 特别 关注 其 四 个 组 成 部 分 : 

。 时 间 记 账 

。 进 程 选 择 

。 调度 器 入 口 

“睡眠 和 唤醒 


4.5.1 时 间 记 账 


所 有 的 调度 器 都 必须 对 进程 运行 时 间 做 记 账 。 多 数 Unix 系统 ， 正 如 我 们 前 面 所 说 ， 分 配 一 
个 时 间 片 给 每 一 个 进程 。 那 么 当 每 次 系统 时 钟 节拍 发 生 时 ， 时 间 片 都 会 被 减少 一 个 节拍 周期 。 当 
一 个 进程 的 时 间 片 被 减少 到 0 时 ， 它 就 会 被 另 一 个 尚未 减 到 0 的 时 间 片 可 运行 进程 抢占 。 

1. 调度 器 实体 结构 

CFS 不 再 有 时 间 片 的 概念 ， 但 是 它 也 必须 维护 每 个 进程 运行 的 时 间 记 账 ， 因 为 它 需 要 确保 
每 个 进程 只 在 公平 分 配给 它 的 处 理 器 时 间 内 运行 。CFS 使 用 调度 器 实体 结构 (定义 在 文件 <linux/ 
sched.h> 的 struct_sched_entity 中 ) 来 追踪 进程 运行 记 账 : 
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struct sched entity { 


struct load weight load; 

struct rb node run node; 

struct list head group node; 
unsigned int on rq; 

u64 exec start; 

u64 sum exec runtime; 
u64 vruntime; 

u64 prev_sum exec_ runtime; 
u64 last wakeup; 

u64 avg_overlap; 

u64 nr_ migrations; 
u64 start runtime; 
u64 avg_wakeup; 


人 这 里 省 略 了 很 多 统计 变量 ， 只 有 在 设置 了 CONFIG_SCHEDSTATS 时 才 启 用 这 些 变量 */ 

调度 器 实体 结构 作为 一 个 名 为 se 的 成 员 变 量 ， 人 嵌入 在 进程 描述 符 struct task_struct 内 。 我 们 
已 经 在 第 3 章 讨论 过 进程 描述 符 。 

2. 虚拟 实时 

vruntime 变量 存放 进程 的 虚拟 运行 时 间 ， 该 运行 时 间 ( 花 在 运行 上 的 时 间 和 ) 的 计算 是 
经 过 了 所 有 可 运行 进程 总 数 的 标准 化 (或 者 说 是 被 加 权 的 )。 虚 拟 时 间 是 以 ns 为 单位 的 ， 所 以 
vruntime 和 定时 器 节拍 不 再 相关 。 虚 拟 运行 时 间 可 以 帮助 我 们 逼近 CFS 模型 所 追求 的 “理想 多 
任务 处 理 器 ”。 如 果 我 们 真有 这 样 一 个 理想 的 处 理 器 ， 那 么 我 们 就 不 再 需要 vruntime 了 。 因 为 优 
先 级 相同 的 所 有 进程 的 虚拟 运行 时 都 是 相同 的 一 一 所 有 任务 都 将 接收 到 相等 的 处 理 器 份额 。 但 是 
因为 处 理 器 无 法 实现 完美 的 多 任务 ， 它 必须 依次 运行 每 个 任务 。 因 此 CFS 使 用 vruntime 变量 来 
记录 一 个 程序 到 底 运 行 了 多 长 时 间 以 及 它 还 应 该 再 运行 多 久 。 

定义 在 kernelsched_fair.c 文件 中 的 update_curr0 函数 实现 了 该 记 账 功能 : 


static void update_curr (Struct cfs rq *cfs rq) 


{ 


struct sched entity *curr = cfs rq->curr; 
u64 now = rq of(cfs rq)->clock; 
unsigned long delta exec; 


if (unlikely(!curr)) 


return; 
/* 获得 从 最 后 一 次 修改 负载 后 当前 任务 所 占用 的 运行 总 时 间 (在 32 位 系统 上 这 不 会 溢出) 


*/ 
delta exec = (unsigned long) (now - curr->exec start); 
if (ldelta exec) 


TOturny 
_ update curr(cfs rq, curr, delta exec); 
curr->exec_start = now; 


if (entity is task(curr)) { 
struct task struct *curtask = task of (curr); 


trace sched Stat_runtime (CUrtask，delta_exec，curr->Vruntime) 
cpuacct charge (curtask, delta exec}); 
account group exec runtime (curtask, delta exec); 


} 

} 

update_curr0 计算 了 当前 进程 的 执行 时 间 ， 并 且 将 其 存放 在 变量 delta_exec 中 。 然 后 它 又 将 
运行 时 间 传 递 给 了 _update_curr0， 由 后 者 再 根据 当前 可 运行 进程 总 数 对 运行 时 间 进 行 加 权 计 
算 。 最 终 将 上 述 的 权重 值 与 当前 运行 进程 的 vruntime 相 加 。 

* 更 新 当前 任务 的 运行 时 统计 数据 。 跳 过 不 在 调度 类 中 的 当前 任务 

static inline void 

_ update curr{(struct cfs rq *cfs rq, struct sched entity *curr, 

unsigned long delta exec) 


{ 


unsigned long delta exec weighted; 
schedstat_set (curr->exec max, max({(u64)delta exec, curr->exec max)); 


curr->sum exec runtime += delta exec; 
schedstat add (cfs_rq, exec clock, delta exec); 
delta exec weighted = calc delta fair(delta exec, curr); 


curr->vruntime += delta exec weighted; 
update min vruntime(cfs rq); 


} 


update_curr() 是 由 系统 定时 器 周期 性 调用 的 ， 无 论 是 在 进程 处 于 可 运行 态 ， 还 是 被 堵塞 处 于 
不 可 运行 态 。 根 据 这 种 方式 ，vruntime 可 以 准确 地 测量 给 定 进 程 的 运行 时 间 ， 而 且 可 知道 谁 应 该 
是 下 一 个 被 运行 的 进程 。 

4.5.2 ”进程 选择 

在 前 面 内 容 中 我 们 的 讨论 中 谈 到 车 存在 一 个 完美 的 多 任务 处 理 器 ， 所 有 可 运行 进程 的 
vruntime 值 将 一 致 。 但 事实 上 我 们 没有 找到 完美 的 多 任务 处 理 器 ， 因 此 CFS 试图 利用 一 个 简单 
的 规则 去 均衡 进程 的 虚拟 运行 时 间 : 当 CFS 需要 选择 下 一 个 运行 进程 时 ， 它 会 挑 一 个 具有 最 小 
vruntime 的 进程 。 这 其 实 就 是 CFS 调度 算法 的 核心 : 选择 具有 最 小 vruntime 的 任务 。 那 么 剩 下 
的 内 容 我 们 就 来 讨论 到 底 是 如 何 实现 选择 具有 最 小 vruntime 值 的 进程 。 

CFS 使 用 红 黑 树 来 组 织 可 运行 进程 队列 ， 并 利用 其 迅速 找到 最 小 vruntime 值 的 进程 。 在 
Linux 中 ， 红 黑 树 称 为 tbtree， 它 是 一 个 自 平衡 二 又 搜索 树 。 我 们 将 在 第 6 章 讨论 自 平衡 二 又 树 
以 及 红 黑 树 。 现 在 如 果 你 还 不 熟悉 它们 ， 不 要 紧 ， 你 只 需要 记 住 红 黑 树 是 一 种 以 树 节点 形式 存储 
的 数据 ， 这 些 数 据 都 会 对 应 一 个 键 值 。 我 们 可 以 通过 这 些 键 值 来 快速 检索 节点 上 的 数据 (重要 的 
是 ， 通 过 键 值 检 索 到 对 应 节点 的 速度 与 整个 树 的 节点 规模 成 指数 比 关系 )。 
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1. 挑选 下 一 个 任务 

我 们 先 假设 ， 有 那么 一 个 红 黑 树 存储 了 系统 中 所 有 的 可 运行 进程 ， 其 中 节点 的 键 值 便 是 可 运行 
进程 的 虚拟 运行 时 间 。 稍 后 我 们 可 以 看 到 如 何 生成 该 树 ， 但 现在 我 们 假定 已 经 拥有 它 了 。CFS 调度 
器 选取 待 运行 的 下 一 个 进程 ， 是 所 有 进程 中 vruntime 最 小 的 那个 ， 它 对 应 的 便 是 在 树 中 最 左 侧 的 叶 
子 节 点 。 也 就 是 说 ， 你 从 树 的 根 市 点 沿 着 左边 的 子 节点 向 下 找 ， 一 直 找 到 叶子 节点 ， 你 便 找到 了 其 
vruntime 值 最 小 的 那个 进程 。( 再 说 一 次 ， 如 果 你 不 熟悉 二 又 搜索 树 ， 不 用 担心 ， 只 要 知道 它 用 来 加 
速 寻找 过 程 即 可 ) CFS 的 进程 选择 算法 可 简单 总 结 为 “运行 tbtree 树 中 最 左边 叶子 节点 所 代表 的 那个 
进程 ”。 实 现 这 一 过 程 的 函数 是 _pick_next_entity0， 它 定义 在 文件 kemelsched fairc 中 : 


static struct sched entity * pick next entity(struct cfs rq *cfs rq) 
{ 


struct rb _ node *left = cfs rq->rb leftmost; 


if (lleft) 
return NULL; 


return rb entry(left, struct sched entity, run node); 


} 


注意 _pick_next_entity(0 涵 数 本 身 并 不 会 遍历 树 找 到 最 左 叶子 节点 ， 因 为 该 值 已 经 丝 存 在 
rb_leftmost 字段 中 。 虽 然 红 黑 树 让 我 们 可 以 很 有 效 地 找到 最 左 叶 子 节点 (O 〇 ( 树 的 高 
度 ) 等 于 树 节 点 总 数 的 O (log n), 这 是 平衡 树 的 优势 )， 但 是 更 容易 的 做 法 是 把 最 左 
叶子 节点 缓存 起 来 。 这 个 函数 的 返回 值 便 是 CFS 调度 选择 的 下 一 个 运行 进程 。 如 果 
该 函数 返回 值 是 NULL， 那 么 表示 没有 最 左 叶 子 节点 ， 也 就 是 说 树 中 没有 任何 节点 
了 。 这 种 情况 下 ， 表 示 没 有 可 运行 进程 ，CFS 调度 器 便 选 择 idle 任务 运行 。 
2. 向 树 中 加 入 进程 : 
现在 ， 我 们 来 看 CFS 如 何 将 进程 加 入 rbtree 中 ， 以 及 如 何 缓存 最 左 叶 子 节 点 。 这 一 切 发 生 
在 进程 变 为 可 运行 状态 (被 唤醒 ) 或 者 是 通过 fork0 调用 第 一 次 创建 进程 时 一 一 在 第 3 章 我 们 讨 
论 过 它 。enqueue_entity0 函数 实现 了 这 一 目的 : 


static void 


enqueue entity{struct cfs rq *cfs rq, struct sched entity *se, int flags) 
{ 
/* 


* 通过 调用 update_curr ()， 在 更 新 min_vruntime 之 前 先 更 新 规范 化 的 vrunt ime 
*/ 
if (!(flags & ENQUEUE WAKEUP) || (flags & ENQUEUE MIGRATE)) 
se->vruntime += cfs_ rq->min vruntime; 
/ * 
* 更 新 “当前 任务 ”的 运行 时 统计 数据 
*/ 


update curr(cfs rq); 
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account_entity _ engqueue (cfs_rq，se); 


if (flags & ENQUEUE WAKEUP) { 
place entityl(cfs rq, se, 0); 
enqueue _ sleeper (cfs rq, se); 


update stats enqueue (cfs rq, se); 
check spread(cfs rq, se); 
if (se != cfs_rq->curr)} 

__enqueue entityl(cfs rq, se); 


该 函数 更 新 运行 时 间 和 其 他 一 些 统计 数据 ， 然 后 调用 enqueue_entity0 进行 繁重 的 插入 操 
作 ， 把 数据 项 真正 插入 到 红 黑 树 中 : 


/* 把 一 个 调度 实体 插入 红 黑 树 中 */ 


static void _enqueue entity(struct cfs rq *cfs rq, struct sched entity *se) 


{ 


struct rb node **link = &cfs rq->tasks timeline.rb node; 
struct rb node *parent = NULL; 
struct sched entity *entry; 
S64 key = entity keyl(cfs rq, se); 
int leftmost = 1; 
/* 在 红 黑 树 中 查找 合适 的 位 置 */ 
while (*link) { 
parent = *link; 
entry = rb _entryl(parent, struct sched entity, run node); 


/* 
* 我 们 并 不 关心 冲突 。 具 有 相同 键 值 的 节点 呆 在 一 起 
*/ 


if (key < entity key(cfs rq, entry)) { 
link = &parent->rb left; 

} else { 
link = &parent->rb right; 
leftmost = 0; 


} 

/* 

* 维护 一 个 缓存 ， 其 中 存放 树 最 左 叶 子 节点 (也 就 是 最 常 使 用 的 ) 
*/ 


if (leftmost) 
cfs rq->rb leftmost = &se->run node; 


rb link node(&se->run node, parent, link); 
rb insert color{(&se->run node, gcfs rq->tasks timeline); 
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我 们 来 看 看 上 述 函 数 ，while0 循环 中 遍历 树 以 寻找 合适 的 匹配 键 值 ， 该 值 就 是 被 插入 进 
程 的 vruntime。 平 衡 二 叉 树 的 基本 规则 是 ， 如 果 键 值 小 于 当前 节点 的 键 值 ， 则 需 转 向 树 的 左 分 
支 ; 相反 如 果 大 于 当前 节点 的 键 值 ， 则 转向 右 分 支 。 如 果 一 旦 走 过 右 边 分 支 ， 哪 怕 一 次 ， 也 说 
明 插 入 的 进程 不 会 是 新 的 最 左 节点 ， 因 此 可 以 设置 leftmost 为 0。 如 果 一 直 都 是 向 左 移动 ， 那 么 
leftmost 维持 1， 这 说 明 我 们 有 一 个 新 的 最 左 节点 ， 并 且 可 以 更 新 缓存 一 一 设置 tb_leftmost 指向 
被 插入 的 进程 。 当 我 们 沿 着 一 个 方向 和 一 个 没有 子 节 的 节点 比较 后 : link 如 果 这 时 是 NULL， 循 环 
随 之 终止 。 当 退出 循环 后 ， 接 着 在 父 节 点 上 调用 mb_link_ node0， 以 使 得 新 插入 的 进程 成 为 其 子 节 
点 。 最 后 函数 tb_insert_color0 更 新 树 的 自 平 衡 相 关 属 性 。 关 于 着 色 问 题 ， 我 们 放 在 第 6 章 讨论 。 

3. 从 树 中 删除 进程 

最 后 我 们 看 看 CFS 是 如 何 从 红 黑 树 中 删除 进程 的 。 删 除 动作 发 生 在 进程 堵塞 〈 变 为 不 可 运 
行 态 ) 或 者 终止 时 (结束 运行 ) : 


static void 
dequeue entityl(struct cfs rq *cfs rq, struct sched entity *se, int sleep) 


{ 


/* 
* 更 新 “当前 任务 ”的 运行 时 统计 数据 
*/ 


update_ currl(cfs rq); 


update stats dequeue (cfs rq, se); 
clear buddies (cfs rq, se); 


if {se != cfs rq->curr) 

_ _ dequeue entity(cfs rq, se); 
account entity dequeue (cfs rq, se); 
update min vruntime (cfs rq); 


/x* 
* 在 更 新 min_vruntime 之 后 对 调度 实体 进行 规范 化 ， 因 为 更 新 可 以 指向 “->curr” 项 ， 我 们 需要 
* 在 规范 化 的 位 置 反 映 这 一 变化 
*/ 
if (!sleep) 
se->vruntime -= cfs rq->min vruntime; 


} 
和 给 红 黑 树 洪 加 进程 一 样 ， 实 际 工作 是 由 辅助 函数 dequeue_entity0 完成 的 。 


static void _ dequeue entity(struct cfs rq *cfs rq, struct sched entity *se) 
{ 
if (cfs rq->rb leftmost == &se->run node) { 
struct rb node *next node; 


next_ node = rb next (&se->run node); 
cfs rq->rb leftmost = next node; 


} 


rb erase(l&se->run node, &cfs rq->tasks timeline); 
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从 红 黑 树 中 删除 进程 要 容易 得 多 。 因 为 rbtree 实现 了 rb_erase() 函数 ， 它 可 完成 所 有 工 
作 。 该 函数 的 剩 下 工作 是 更 新 rb_leftmost 缓存 。 如 果 要 删除 的 进程 是 最 左 节点 ， 那 么 该 函数 
要 调用 rb_nextO 按 师 序 遍历 ， 找 到 谁 是 下 一 个 节点 ， 也 就 是 当前 最 左 节点 被 删除 后 ， 新 的 最 
左 节点 。 


4.5.3 调度 器 入 口 


进程 调度 的 主要 入 口 点 是 函数 schedule()， 它 定义 在 文件 kernel/sched.c 中 。 它 正 是 内 核 其 他 
部 分 用 于 调用 进程 调度 器 的 入 口 : 选择 哪个 进程 可 以 运行 ， 何 时 将 其 投入 运行 。Schedule() 通常 
都 需要 和 一 个 具体 的 调度 类 相关 联 ， 也 就 是 说 ， 它 会 找到 一 个 最 高 优先 级 的 调度 类 一 一 后 者 需 
要 有 自己 的 可 运行 队列 ， 然 后 问 后 者 谁 才 是 下 一 个 该 运行 的 进程 。 知 道 了 这 个 背景 ， 就 不 会 吃惊 
schedule() 函数 为 何 实现 得 如 此 简单 。 该 函数 中 唯一 重要 的 事情 是 〈 要 连 这 个 都 没有 ， 那 这 个 函 
数 真 是 乏味 得 不 用 介绍 啦 )， 它 会 调用 pick_next_task()〈 也 定义 在 文件 kemel/sched.c 中 )。 pick_ 
next_task() 会 以 优先 级 为 序 ， 从 高 到 低 ， 依 次 检查 每 一 个 调度 类 ， 并 且 从 最 高 优先 级 的 调度 类 
中 ， 选 择 最 高 优先 级 的 进程 : 


/* 
* 挑选 最 高 优先 级 的 任务 
*/ 


static inline struct task struct * 
pick next task{(struct rq *rq) 


const struct sched class *class; 
struct task struct *p; 


/* 
* 优化 : 我 们 知道 如 果 所 有 任务 都 在 公平 类 中 ， 那 么 我 们 就 可 以 直接 调用 那个 函数 
*/ 


if (likely(rq->nr running == rq->cfs.nr running)) { 
p = fair_ sched class.pick next task (rq); 
if (1ikely(P)) 
return p; 
} 
class = sched class highest; 
for (;;){ 
P = class->pick next task (rq); 
if (p) 
return p; 
/* 
* 永 不 会 为 NULL， 因 为 idle 类 总 会 返回 非 NULL 的 p 
*/ 
class = class->next; 
} 
} 


注意 该 函数 开始 部 分 的 优化 。 因 为 CFS 是 普通 进程 的 调度 类 ， 而 系统 运行 的 绝 大 多 数 进程 
都 是 普通 进程 ， 因 此 这 里 有 一 个 小 技巧 用 来 加 速 选择 下 一 个 CFS 提供 的 进程 ， 前 提 是 所 有 可 运 
行进 程 数量 等 于 CFS 类 对 应 的 可 运行 进程 数 〈 这 样 就 说 明 所 有 的 可 运行 进程 都 是 CFS 类 的 )。 

该 函数 的 核心 是 for0 循环 ， 它 以 优先 级 为 序 ， 从 最 高 的 优先 级 类 开始 ， 遍 历 了 每 一 个 调度 


过 得 再度 49 


类 。 每 一 个 调度 类 都 实现 了 pick_ next task0 函数 ， 它 会 返回 指向 下 一 个 可 运行 进程 的 指针 ， 或 . 
者 没有 时 返回 NULL。 我 们 会 从 第 一 个 返回 非 NULL 值 的 类 中 选择 下 一 个 可 运行 进程 。CFS 中 
Pick_next_task() 实现 会 调用 pick_next_entity()， 而 该 函数 会 再 来 调用 我 们 前 面 内 容 中 讨论 过 的 
_pick_next_entity( 函数 。 


4.5.4 ”睡眠 和 了 唤醒 


休眠 〈 被 阻塞 ) 的 进程 处 于 一 个 特殊 的 不 可 执行 状态 。 这 点 非常 重要 ， 如 果 没 有 这 种 特殊 状 
态 的 话 ， 调 度 程序 就 可 能 选 出 一 个 本 不 愿意 被 执行 的 进程 ， 更 精 糕 的 是 ， 休 卢 就 必须 以 轮 询 的 方 
式 实现 了 。 进 程 休 眠 有 多 种 原因 ， 但 肯定 都 是 为 了 等 待 一 些 事件 。 事 件 可 能 是 一 段 时 间 从 文件 IO 
读 更 多 数据 ， 或 者 是 某 个 硬件 事件 。 一 个 进程 还 有 可 能 在 尝试 获取 一 个 已 被 占用 的 内 核 信号 量 时 
被 迫 进入 休眠 〈 这 部 分 在 第 9 章 中 加 以 讨论 )。 休 卢 的 一 个 常见 原因 就 是 文件 IO 一 一 如 进程 对 一 
个 文件 执行 了 read0 操作 ， 而 这 需要 从 磁盘 里 读 取 。 还 有 ， 进 程 在 获取 键盘 输入 的 时 候 也 需要 等 
待 。 无 论 哪 种 情况 ， 内 核 的 操作 都 相同 : 进程 把 自己 标记 成 休眠 状态 ， 从 可 执行 红 黑 树 中 移出 ， 
放 入 等 待 队列 ， 然 后 调用 schedule() 选择 和 执行 一 个 其 他 进程 。 唤 醒 的 过 程 刚好 相反 : 进程 被 设 
置 为 可 执行 状态 ， 然 后 再 从 等 待 队列 中 移 到 可 执行 红 黑 树 中 。 

在 第 3 章 里 曾经 讨论 过 ， 休 眼 有 两 种 相关 的 进程 状态 : TASK_INTERRUPTIBLE 和 TASK_ 
UNINTERRUPTIBLE。 它 们 的 唯一 区 别 是 处 于 TASK_UNINTERRUPTIBLE 的 进程 会 忽略 信号 ， 
而 处 于 TASK _INTERRUPTIBLE 状态 的 进程 如 果 接 收 到 一 个 信号 ， 会 被 提前 唤醒 并 响应 该 信号 。 
两 种 状态 的 进程 位 于 同一 个 等 待 队列 上 ， 等 待 某 些 事件 ， 不 能 够 运行 。 

1. 等 待 队列 

休 眼 通过 等 待 队 列 进行 处 理 。 等 待 队列 是 由 等 待 某 些 事件 发 生 的 进程 组 成 的 简单 链表 。 内 
核 用 wake_queue_head t 来 代表 等 待 队列 。 等 待 队列 可 以 通过 DECLARE_WAITQUEUE() 静态 创 
建 ， 也 可 以 由 init_waitqueue_head() 动态 创建 。 进 程 把 自己 放 和 等待 队 列 中 并 设置 成 不 可 执行 状 
态 。 当 与 等 待 队列 相关 的 事件 发 生 的 时 候 ， 队 列 上 的 进程 会 被 唤醒 。 为 了 避免 产生 竞争 条 件 ， 休 
眠 和 唤醒 的 实现 不 能 有 丝 漏 。 

针对 休眠 ， 以 前 曾经 使 用 过 一 些 简单 的 接口 。 但 那些 接口 会 带 来 竞争 条 件 : 有 可 能 导致 在 判 
定 条 件 变 为 真 后 ， 进 程 却 开 始 了 休眠 ， 那 样 就 会 使 进程 无 限期 地 休 眼 下 去 。 所 以 ， 在 内 核 中 进行 
休眠 的 推荐 操作 就 相对 复杂 了 一 些 : 

/* 'q， 是 我 们 希望 休眠 的 等 待 队列 */ 


DEFINE WAIT(wait); 


add wait queue(q, &wait); 
while (!condition) { /* 'condition' 是 我 们 在 等 待 的 事件 */ 
prepare to wait(&q, &wait, TASK INTERRUPTIBLE); 
if (signal pending (current)) 
/* 处 理 信号 */ 
schedule(); 


finish wait(&q, g&wait); 


进程 通过 执行 下 面 几 个 步 又 将 自己 加 入 到 一 个 等 待 队列 中 : 
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1) 调用 宏 DEFINE_WAITO 创建 一 个 等 待 队列 的 项 。 

2) 调用 add_wait_queue0 把 自己 加 入 到 队列 中 。 该 队列 会 在 进程 等 待 的 条 件 满 足 时 唤醒 它 。 
当然 我 们 必须 在 其 他 地 方 撰写 相关 代码 ， 在 事件 发 生 时 ， 对 等 待 队列 执行 wake_up0 操作 。 

3) 调用 prepare to_wait0O 方法 将 进程 的 状态 变更 为 TASK INTERRUPTIBLE 或 TASK 
UNINTERRUPTIBLE。 而 且 该 函数 妇 果 有 必要 的 话 会 将 进程 加 回 到 等 待 队列 ， 这 是 在 接 下 来 的 
循环 遍历 中 所 需要 的 。 

4) 如 果 状 态 被 设置 为 TASK_INTERRUPTIBLE， 则 信号 唤醒 进程 。 这 就 是 所 谓 的 伪 唤 醒 
(唤醒 不 是 因为 事件 的 发 生 )， 因 此 检查 并 处 理 信号 。 

5) 当 进 程 被 唤醒 的 时 候 ， 它 会 再 次 检查 条 件 是 否 为 真 。 如 果 是 ， 它 就 退出 循环 ; 如 果 不 
是 ， 它 再 次 调用 schedule() 并 一 直 重 复 这 步 操作 。 

6) 当 条 件 满 足 后 ， 进 程 将 自己 设置 为 TASK_RUNNING 并 调用 finish_wait0 方法 把 自己 移 
出 等 待 队 列 。 

如 果 在 进程 开始 休 卢 之 前 条 件 就 已 经 达成 了 ， 那 么 循环 会 退出 ， 进 程 不 会 存在 错误 地 进入 休 
卢 的 倾向 。 需 要 注意 的 是 ， 内 核 代码 在 循环 体内 常常 需要 完成 一 些 其 他 的 任务 ， 比 如 ， 它 可 能 在 
调用 schedule0 之 前 需要 释放 掉 锁 ， 而 在 这 以 后 再 重新 获取 它们 ， 或 者 响应 其 他 事件 。 

尔 数 inotify read0, 位 于 文件 fs/notify/inotify/inotify_user.c 中 ， 人 负责 从 通知 文件 描述 符 中 读 
取信 息 ， 它 的 实现 无 疑 是 等 待 队 列 的 一 个 典型 用 法 : 


static ssize t inotify read(struct file *file, char _ user *buf, 
size t count, loff t *pos) 
{ 


struct fsnotify group *group; 
struct fsnotify event *kevent; 
char _ user *start; 

int ret; 

DEFINE WAIT (wait); 


start = buf; 
group = file->private data; 


while (1) { 
prepare to wait(&group->notification waitq, 
&wait, 
TASK INTERRUPTIBLE); 


mutex lock (ggroup->notification mutex); 
kevent = get_ one event (group, count); 
mutex unlock (ggroup->notification mutex); 


if (kevent) { 
ret = PTR_ERR (kevent); 
if (IS_ ERR (kevent)) 
break; 
ret = copy_event to user(group, kevent, buf); 
fsnotify put event (kevent); 
if (ret < 0) 


进香 茹 度 51 


break; 
buf += ret; 
count -= ret; 
continue; 


} 


ret = -EAGAIN; 

if (file->f flags & O_ NONBLOCK) 
break; 

ret = -EINTR; 

if (signal pending (current)) 
break; 


if {start != buf) 
break; 


Schedule () ; 


} 


finish wait(&group->notification waitq, &wait); 


if (start != buf && ret != -EFAULT) 
ret = buf - start; 
return ret; 


} 


这 个 函数 遵循 了 我 们 例子 中 的 使 用 模式 ， 主 要 的 区 别 是 它 在 while 循环 中 检查 了 状态 ， 而 不 
是 在 while 循环 条 件 语 名 中。 原因 是 该 条 件 的 检测 更 复杂 些 ， 而 且 需 要 获得 锁 。 也 正 因为 如 此 ， 
循环 退出 是 通过 break 完成 的 。 

2. 唤醒 

唤醒 操作 通过 函数 wake_up0 进行 ， 它 会 唤醒 指定 的 等 待 队 列 上 的 所 有 进程 。 它 调用 函 
数 try to_wake up0， 该 函数 负责 将 进程 设置 为 TASK_RUNNING 状态 ， 调 用 enqueue_task() 将 
此 进程 放 入 红 黑 树 中 ， 如 果 被 唤醒 的 进程 优先 级 比 当 前 正在 执行 的 进程 的 优先 级 高 ， 还 要 设置 
need_resched 标志 。 通 常 娜 段 代 码 促使 等 待 条 件 达 成 ， 它 就 要 负责 随后 调用 wake_up0 函数 。 举 
例 来 说 ,| 当 磁 盘 数据 到 来 时 ，VFS 就 要 负责 对 等 待 队列 调用 wake_upO0， 以 便 唤醒 队列 中 等 待 这 
些 数 据 的 进程 。 

关于 休眠 有 一 点 需要 注意 ， 存 在 虚假 的 唤醒 。 有 时 候 进 程 被 唤醒 并 不 是 因为 它 所 等 待 的 条 件 
达成 了 才 需 要 用 一 个 循环 处 理 来 保证 它 等 待 的 条 件 真 正 达成 。 图 4-1 描述 了 每 个 调度 程序 状态 之 
间 的 关系 。 


4.6 ”抢占 和 上 下 文 切换 


上 下 文 切换 ， 也 就 是 从 一 个 可 执行 进程 切换 到 另 一 个 可 执行 进程 ， 由 定义 在 kemel sched.c 中 
的 context_switchO 函数 负责 处 理 。 每 当 一 个 新 的 进程 被 选 出 来 准备 投入 运行 的 时 候 ，schedule() 
就 会 调用 该 函数 。 它 完成 了 两 项 基本 的 工作 : 

* 调 用 声明 在 <asm/mmu_context.h> 中 的 switch mmO， 该 函数 负责 把 虚拟 内 存 从 上 一 个 进 
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程 映射 切换 到 新 进程 中 。 

。 调 用 声明 在 <asm/system.h> 中 的 switch_ to0， 该 函数 负责 从 上 一 个 进程 的 处 理 器 状态 切换 
到 新 进程 的 处 理 器 状态 。 这 包括 保存 、 恢 复 栈 信息 和 寄存 器 信息 ， 还 有 其 他 任何 与 体系 结 
构 相 关 的 状态 信息 ， 都 必须 以 每 个 进程 为 对 象 进 行 管理 和 保存 。 

_add_wait_queue0 把 任务 加 到 等 待 队 列 中 ， 把 任务 


的 状态 置 为 TASK_INTERRUPTIBLE， 然 后 调用 schedule(), 一 
schedule0 调 用 deactivate_task0 从 运行 队列 中 删除 任务 


(任务 是 不 可 运行 的 ) 
(任务 是 可 运行 的 ) ¥ 


接收 信号 
亏 - 任 务 的 状态 被 设置 为 TASK_RUNNING,-| TASK_INTERRUPTIBLE 
然后 任务 执行 信号 处 理 程序 


杀 


任务 等 待 事件 发 生 ， 然 后 ty_to_wake_up0 把 任务 置 为 TASK_ RUNNING， | 
调用 activate_task() 把 任务 加 到 运行 队列 ， 之 后 调用 schedule() ,一 
_ remove_wait_queue(0 把 任务 从 等 待 队列 中 删除 


图 4-1 休眠 和 唤醒 


内 核 必 须知 道 在 什么 时 候 调 用 schedule()。 如 果 仅 靠 用 户 程序 代码 显 式 地 调用 schedule0， 它 
们 可 能 就 会 永远 地 执行 下 去 。 相 反 ， 内 核 提供 了 一 个 need_resched 标志 来 表明 是 否 需 要 重新 执行 
一 次 调度 〈 见 表 4-1)。 当 某 个 进程 应 该 被 抢占 时 ，scheduler_tick0 就 会 设置 这 个 标志 : 当 一 个 优 
先 级 高 的 进程 进入 可 执行 状态 的 时 候 ，try_to_wake_up0 也 会 设置 这 个 标志 ， 内 核 检查 该 标志 ， 
确认 其 被 设置 ， 调 用 schedule0 来 切换 到 一 个 新 的 进程 。 该 标志 对 于 内 核 来 讲 是 一 个 信息 ， 它 表 
示 有 其 他 进程 应 当 被 运行 了 ， 要 尽快 调用 调度 程序 。 


表 4-1 用 于 访问 和 操作 need_resched 的 函数 


函数 目 的 
set_tsk_need resched() 设置 指定 进程 中 的 need_resched 标志 
clear tsk_need_resched() 清除 指定 进程 中 的 need_resched 标志 
need reschedO 检查 need_resched 标志 的 值 ， 如 果 被 设置 就 返回 真 ， 否 则 返回 假 


再 返回 用 户 空间 以 及 从 中 断 返 回 的 时 候 ， 内 核 也 会 检查 need_resched 标志 。 如 果 已 被 设置 ， 
内 核 会 在 继续 执行 之 前 调用 调度 程序 。 

每 个 进程 都 包含 一 个 need_resched 标志 ， 这 是 因为 访问 进程 描述 符 内 的 数值 要 比 访问 一 个 
全 局 变量 快 〈 因 为 current 宏 速 度 很 快 并 且 描 述 符 通常 都 在 高 速 缓存 中 )。 在 2.2 以 前 的 内 核 版 本 
中 ， 该 标志 曾经 是 一 个 全 局 变量 。2.2 到 2.4 版 内 核 中 它 在 task_struct 中 。 而 在 2.6 版 中 ， 它 被 移 
到 thread_info 结构 体 里 ， 用 一 个 特别 的 标志 变量 中 的 一 位 来 表示 。 
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4.6.1 用 户 抢 占 


内 核 即 将 返回 用 户 空间 的 时 候 ， 如 果 need_resched 标志 被 设置 ， 会 导致 schedule0 被 调用 ， 
此 时 就 会 发 生 用 户 抢占 。 在 内 核 返回 用 户 空间 的 时 候 ， 它 知道 自己 是 安全 的 ， 因 为 既然 它 可 以 继 
续 去 执行 当前 进程 ， 那 么 它 当 然 可 以 再 去 选择 一 个 新 的 进程 去 执行 。 所 以 ， 内 核 无 论 是 在 中 断 处 
理 程序 还 是 在 系统 调用 后 返回 ， 都 会 检查 need_resched 标志 。 如 果 它 被 设置 了 ， 那 么 ， 内 核 会 选 
择 一 个 其 他 更 合适 的 ) 进程 投入 运行 。 从 中 断 处 理 程序 或 系统 调用 返回 的 返回 路 径 都 是 跟 体系 
结构 相关 的 ， 在 entry.S〈 此 文件 不 仅 包含 内 核 入 口 部 分 的 程序 ， 内 核 退出 部 分 的 相关 代码 也 在 其 
中 ) 文件 中 通过 汇编 语言 来 实现 。 

简 而 言 之 ， 用 户 抢占 在 以 下 情况 时 产生 : 

。 从 系统 调 返回 用 户 空间 时 。 

。 从 中 断 处 理 程序 返回 用 户 空 间 时 。 


4.6.2 ”内 核 抢占 


与 其 他 大 部 分 的 Unix 变 体 和 其 他 大 部 分 的 操作 系统 不 同 ，Linux 完整 地 支持 内 核 抢 占 。 在 
不 支持 内 核 抢 占 的 内 核 中 ， 内 核 代码 可 以 一 直 执 行 ， 到 它 完成 为 止 。 也 就 是 说 ， 调 度 程 序 没 有 
办 法 在 一 个 内 核 级 的 任务 正在 执行 的 时 候 重新 调度 一 一 内 核 中 的 各 任务 是 以 协作 方式 调度 的 ， 不 
具备 抢占 性 。 内 核 代码 一 直 要 执行 到 完成 (返回 用 户 空间 〉 或 明显 的 阻塞 为 止 。 在 2.6 版 的 内 核 
中 ， 内 核 引 入 了 抢占 内 力 ; 现在 ， 只 要 重新 调度 是 安全 的 ， 内 核 就 可 以 在 任何 时 间 抢 占 正在 执行 
的 任务 。 

”那么 ， 什 么 时 候 重 新 调度 才 是 安全 的 呢 ? 只 要 没有 持 有 锁 ， 内 核 就 可 以 进行 抢占 。 锁 是 非 抢 
占 区 域 的 标志 。 由 于 内 核 是 支持 SMP 的 ， 所 以 ， 如 果 没 有 持 有 锁 ， 正 在 执行 的 代码 就 是 可 重新 
导入 的 ， 也 就 是 可 以 抢占 的 。 

为 了 支持 内 核 抢占 所 做 的 第 一 处 变动 ， 就 是 为 每 个 进程 的 thread_info 引入 preempt_count 计 
数 器 。 该 计数 器 初始 值 为 0， 每 当 使 用 锁 的 时 候 数 值 加 1， 释 放 锁 的 时 候 数值 减 1。 当 数值 为 0 
的 时 候 ， 内 核 就 可 执行 抢占 。 从 中 断 返 回 内 核 空间 的 时 候 ， 内 核 会 检查 need_resched 和 preempt_ 
count 的 值 。 如 果 need_resched 被 设置 ， 并 且 preempt_count 为 0 的 话 ， 这 说 明 有 一 个 更 为 重要 的 
任务 需要 执行 并 且 可 以 安全 地 抢占 ， 此 时 ， 调 度 程序 就 会 被 调用 。 如 果 preempt_count 不 为 0， 
说 明 当 前 任务 持 有 锁 ， 所 以 抢占 是 不 安全 的 。 这 时 ， 内 核 就 会 像 通 常 那样 直接 从 中 断 返 回 当 前 执 
行进 程 。 如 果 当 前 进程 持 有 的 所 有 的 锁 都 被 释放 了 ，preempt_count 就 会 重新 为 0。 此 时 ， 释 放 锁 
的 代码 会 检查 need_resched 是 否 被 设置 。 如 果 是 的 话 ， 就 会 调用 调度 程序 。 有 些 内 核 代码 需要 人 允 
许 或 禁止 内 核 抢占 ， 相 关内 容 会 在 第 9 章 讨论 。 

如 果 内 核 中 的 进程 被 阻塞 了 ， 或 它 显 式 地 调用 了 schedule0， 内 核 抢占 也 会 显 式 地 发 生 。 这 
种 形式 的 内 核 抢 占 从 来 都 是 受 支 持 的 ， 因 为 根本 无 须 额外 的 逻辑 来 保证 内 核 可 以 安全 地 被 抢占 。 
如 果 代 码 显 式 地 调用 了 schedule0， 那 么 它 应 该 清楚 自己 是 可 以 安全 地 被 抢占 的 。 

内 核 抢 占 会 发 生 在 : 

。 中 断 处 理 程 序 正 在 执行 ， 且 返回 内 核 空间 之 前 。 
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* 内 核 代码 再 一 次 具有 可 抢占 性 的 时 候 。 
“ 如果 内 核 中 的 任务 显 式 地 调用 schedule0。 
“ 如果 内 核 中 的 任务 阻塞 〈 这 同样 也 会 导致 调用 schedule0 )。 


4.7 “实时 调度 策略 


Linux 提供 了 两 种 实时 调度 策略 : SCHED FIFO 和 SCHED RR。 而 普通 的 、 非 实时 的 调度 
策略 是 SCHED_NORMAL。 借助 调 度 类 的 框架 ， 这 些 实时 策略 并 不 被 完全 公平 调度 器 来 管理 ， 
而 是 被 一 个 特殊 的 实时 调度 器 管理 。 具 体 的 实现 定义 在 文件 kernel/sched rt.c. 中 ， 在 接 下 来 的 内 
容 中 我 们 将 讨论 实时 调度 策略 和 算法 。 

SCHED_FIFO 实现 了 一 种 简单 的 、 先 入 先 出 的 调度 算法 : 它 不 使 用 时 间 片 。 处 于 可 运行 
状态 的 SCHED_FIFO 级 的 进程 会 比 任何 SCHED_NORMAL 级 的 进程 都 先 得 到 调度 。 一 且 一 个 
SCHED _FIFO 级 进程 处 于 可 执行 状态 ， 就 会 一 直 执 行 ， 直 到 它 自己 受阻 塞 或 显 式 地 释放 处 理 器 
为 止 ; 它 不 基于 时 间 片 ， 可 以 一 直 执 行 下 去 。 只 有 更 高 优先 级 的 SCHED_FIFO 或 者 SCHED_RR 
任务 才能 抢占 SCHED _FIFO 任务 。 如 果 有 两 个 或 者 更 多 的 同 优先 级 的 SCHED_ FIFO 级 进程 ， 它 
们 会 轮流 执行 , 但 是 依然 只 有 在 它们 愿意 让 出 处 理 器 时 才 会 退出 。 只 要 有 SCHED _FIFO 级 进程 
在 执行 ， 其 他 级 别 较 低 的 进程 就 只 能 等 待 它 变 为 不 可 运行 态 后 才 有 机 会 执行 。 

SCHED_RR 与 SCHED_FIFO 大 体 相同 ， 只 是 SCHED_RR 级 的 进程 在 耗 尽 事先 分 配给 它 的 
时 间 后 就 不 能 再 继续 执行 了 。 也 就 是 说 ，SCHED_RR 是 带 有 时 间 片 的 SCHED_FIFO 一 一 这 是 一 
种 实时 轮流 调度 算法 。 当 SCHED_RR 任务 耗 尽 它 的 时 间 片 时 ， 在 同一 优先 级 的 其 他 实时 进程 被 
轮流 调度 。 时 间 片 只 用 来 重新 调度 同一 优先 级 的 进程 。 对 于 SCHED_FIFO 进程 ， 高 优先 级 总 是 
立即 抢占 低 优先 级 ， 但 低 优 先 级 进程 决 不 能 抢占 SCHED_RR 任务 ， 即 使 它 的 时 间 片 耗 尽 。 

这 两 种 实时 算法 实现 的 都 是 静态 优先 级 。 内 核 不 为 实时 进程 计算 动态 优先 级 。 这 能 保证 给 定 
优先 级 别 的 实时 进程 总 能 抢占 优先 级 比 它 低 的 进程 。 

Linux 的 实时 调度 算法 提供 了 一 种 软 实 时 工作 方式 。 软 实时 的 含义 是 ， 内 核 调 度 进程 ， 尽 力 
使 进程 在 它 的 限定 时 间 到 来 前 运行 ， 但 内 核 不 保证 总 能 满足 这 些 进 程 的 要 求 。 相 反 ， 硬 实时 系统 
保证 在 一 定 条 件 下 ， 可 以 满足 任何 调度 的 要 求 。Linux 对 于 实时 任务 的 调度 不 做 任何 保证 。 虽 然 
不 能 保证 硬 实时 工作 方式 ， 但 Linux 的 实时 调度 算法 的 性 能 还 是 很 不 错 的 。2.6 版 的 内 核 可 以 满 
是 严格 的 时 间 要 求 。 

实时 优先 级 范围 从 0 到 MAX _RT PRIO 减 1。 默 认 情 况 下 ，MAX _RT _PRIO 为 100 一 一 所 以 
默认 的 实时 优先 级 范围 是 从 0 到 99。SCHED_NORMAL 级 进程 的 nice 值 共 享 了 这 个 取 值 空间 ; 
它 的 取 值 范围 是 从 MAX RT PRIO 到 (MAX RT PRIO + 40)。 也 就 是 说 ， 在 默认 情况 下 ，nice 
值 从 一 20 到 +19 直接 对 应 的 是 从 100 到 139 的 实时 优先 级 范围 。 


4.8 与 调度 相关 的 系统 调用 


Linux 提供 了 一 个 系统 调用 族 ， 用 于 管理 与 调度 程序 相关 的 参数 。 这 些 系统 调用 可 以 用 来 
操作 和 处 理 进程 优先 级 、 调 度 策略 及 处 理 器 绑 定 ， 同 时 还 提供 了 显 式 地 将 处 理 器 交 给 其 他 进程 
的 机 制 。 
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许多 书籍 (还 有 友善 的 man 帮助 文件 ) 都 提供 了 这 些 系统 调用 它们 都 包含 在 C 库 中 ， 没 
用 什么 太 多 的 封装 ， 基 本 上 只 调用 了 系统 调用 而 已 ) 的 说 明 。 表 4-2 列举 了 这 些 系统 调用 并 给 出 
了 简短 的 说 明 。 第 5 章 会 讨论 它们 是 如 何 实现 的 。 


表 4-2 与 调度 相关 的 系统 调用 


系统 调用 描 述 
nice() 设置 进程 的 nice 值 
sched_setscheduler() 设置 进程 的 调度 策略 
sched_getscheduler0 获取 进程 的 调度 策略 
sched_setparam() 设置 进程 的 实时 优先 级 
sched_getparam (0 获取 进程 的 实时 优先 级 
sched_get priority_max OQ 获取 实时 优先 级 的 最 大 值 
sched_get_priority_min 0 获取 实时 优先 级 的 最 小 值 
sched_rr_get_interval0O 获取 进程 的 时 间 片 值 
sched_setaffinity() 设置 进程 的 处 理 器 的 亲和力 
sched_getaffinity () 获取 进程 的 处 理 器 的 亲和力 
sched_yield() 暂时 让 出 处 理 器 


4.8.1 与 调度 策略 和 优先 级 相关 的 系统 调用 


sched_setscheduler() 和 sched_getscheduler() 分 别 用 于 设置 和 获取 进程 的 调度 策略 和 实时 优先 
级 。 与 其 他 的 系统 调用 相似 ， 它 们 的 实现 也 是 由 许多 参数 检查 、 初 始 化 和 清理 构成 的 。 其 实 最 重 
要 的 工作 在 于 读 取 或 改写 进程 tast_struct 的 policy 和 rt_priority 的 值 。 

sched_setparam() 和 sched_getparam() 分 别 用 于 设置 和 获取 进程 的 实时 优先 级 。 这 两 个 系统 
调用 获取 封装 在 sched param 特殊 结构 体 的 rt_priority 中 。sched _ get _ priority max () 和 sched 
get_priority_min() 分 别 用 于 返回 给 定 调度 策略 的 最 大 和 最 小 优先 级 。 实 时 调度 策略 的 最 大 优先 级 
是 MAX_USER RT PRIO 减 1， 最 小 优先 级 等 于 1。 

对 于 一 个 普通 的 进程 ，nice( 函数 可 以 将 给 定 进程 的 静态 优先 级 增加 一 个 给 定 的 量 。 只 有 超 
级 用 户 才能 在 调用 它 时 使 用 负 值 ， 从 而 提高 进程 的 优先 级 。nice0 函数 会 调用 内 核 的 set_ user_ 
nice() 函数 ， 这 个 函数 会 设置 进程 的 task_struct 的 static_prio 和 prio 值 。 


4.8.2 与 处 理 器 绑 定 有 关 的 系统 调用 


Linux 调度 程序 提供 强制 的 处 理 器 绑 定 〈processor affinity) 机 制 。 也 就 是 说 ， 虽 然 它 尽力 通 
过 一 种 软 的 (或 者 说 自然 的 ) 亲 和 性 试图 使 进程 尽量 在 同一 个 处 理 器 上 运行 ， 但 它 也 允许 用 户 
强制 指定 “这 个 进程 无 论 如 何 都 必须 在 这 些 处 理 器 上 运行 >。 这 种 强制 的 亲 和 性 保存 在 进程 task_ 
struct 的 cpus_allowed 这 个 位 掩 码 标志 中 。 该 撩 码 标志 的 每 一 位 对 应 一 个 系统 可 用 的 处 理 器 。 默 
认 情 况 下 ， 所 有 的 位 都 被 设置 ， 进 程 可 以 在 系统 中 所 有 可 用 的 处 理 器 上 执行 。 用 户 可 以 通过 
sched_ setaffinity() 设置 不 同 的 一 个 或 几 个 位 组 合 的 位 掩 码 ， 而 调用 sched_ getaffinityO 则 返回 当 
前 的 cpus_allowed 位 掩 码 。 
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内 核 提 供 的 强制 处 理 器 绑 定 的 方法 很 简单 。 首 先 ， 当 处 理 进行 第 一 次 创建 时 ， 它 继承 了 其 父 
进程 的 相关 掩 码 。 由 于 父 进 程 运 行 在 指定 处 理 器 上 ， 子 进程 也 运行 在 相应 处 理 器 上 。 其 次 ， 当 处 
理 器 绑 定 关系 改变 时 ， 内 核 会 采用 “移植 线程 ”把 任务 推 到 合法 的 处 理 器 上 。 最 后 ， 加 载 平 衡器 
只 把 任务 拉 到 人 允许 的 处 理 器 上 ， 因 此 ， 进 程 只 运行 在 指定 处 理 器 上 ， 对 处 理 器 的 指定 是 由 该 进程 
描述 符 的 cpus_allowed 域 设 置 的 。 


4.8.3 ”放弃 处 理 器 时 间 


Linux 通过 sched_yield0 系统 调用 ， 提 供 了 一 种 让 进程 显 式 地 将 处 理 器 时 间 让 给 其 他 等 待 执 
行进 程 的 机 制 。 它 是 通过 将 进程 从 活动 队列 中 《因为 进程 正在 执行 ， 所 以 它 肯 定位 于 此 队列 当 
中 ) 移 到 过 期 队列 中 实现 的 。 由 此 产生 的 效果 不 仅 抢占 了 该 进程 并 将 其 放 入 优先 级 队列 的 最 后 
面 ， 还 将 其 放 入 过 期 队列 中 一 一 这 样 能 确保 在 一 段 时 间 内 它 都 不 会 再 被 执行 了 。 由 于 实时 进程 
不 会 过 期 ， 所 以 属于 例外 。 它 们 只 被 移动 到 其 优先 级 队列 的 最 后 面 〈 不 会 放 到 过 期 队列 中 )。 在 
Linux 的 早期 版 本 中 ，sched_yield0 的 语义 有 所 不 同 ， 进 程 只 会 被 放置 到 优先 级 队列 的 末尾 ， 放 
弃 的 时 间 往 往 不 会 太 长 。 现 在 ， 应 用 程序 甚至 内 核 代码 在 调用 sched_yield0 前 ， 应 该 仔细 考虑 是 
否 真 的 希望 放弃 处 理 器 时 间 。 

内 核 代码 为 了 方便 ， 可 以 直接 调用 yield0， 先 要 确定 给 定 进 程 确实 处 于 可 执行 状态 ， 然 后 再 
调用 sched_yieldO0。 用 户 空间 的 应 用 程序 直接 使 用 sched_yieldO 系统 调用 就 可 以 了 。 


4.9 小 结 


进程 调度 程序 是 内 核 重 要 的 组 成 部 分 ， 因 为 运行 着 的 进程 首先 在 使 用 计算 机 〈 至 少 在 我 们 大 
多 数 人 看 来 )。 然 而 ， 满 足 进程 调度 的 各 种 需要 绝 不 是 轻而易举 的 : 很 难 找到 “一 刀 切 ”的 算法 ， 
既 适 合 众 多 的 可 运行 进程 ， 又 具有 可 伸缩 性 ， 还 能 在 调度 周期 和 吞吐 量 之 间 求 得 平衡 ， 同 时 还 宝 
足 各 种 负载 的 需求 。 不 过 ，Linux 内 核 的 新 CFS 调度 程序 尽量 满足 了 各 个 方面 的 需求 ， 并 以 较 完 
善 的 可 伸缩 性 和 新 颖 的 方法 提供 了 最 佳 的 解决 方案 。 

前 面 的 章节 和 覆盖 了 进程 管理 的 相关 内 容 ， 本 章 则 考察 了 进程 调度 所 遵循 的 基本 原理 、 具 体 
实现 、 调 度 算法 以 及 目前 Linux 内 核 所 使 用 的 接口 。 第 5 章 将 涵盖 内 核 提供 给 运行 进程 的 主要 接 
口 一 一 系统 调用 。 


第 回 章 
系统 调用 


在 现代 操作 系统 中 ， 内 核 提 供 了 用 户 进程 与 内 核 进行 交互 的 一 组 接口 。 这 些 接口 让 应 用 程序 
受 限 地 访问 硬件 设备 ， 提 供 了 创建 新 进程 并 与 已 有 进程 进行 通信 的 机 制 ， 也 提供 了 申请 操作 系统 
其 他 资源 的 能 力 。 这 些 接口 在 应 用 程序 和 内 核 之 间 扮 演 了 使 者 的 角色 ， 应 用 程序 发 出 各 种 请 求 ， 
而 内 核 负责 满足 这 些 请 求 ( 或 者 无 法 满足 时 返回 一 个 错误 )。 实 际 上 提供 这 些 接口 主要 是 为 了 保 
证 系统 稳定 可 靠 ， 避 免 应 用 程序 盗 意 亡 行 。 


5.1 与 内 核 通信 


系统 调用 在 用 户 空间 进程 和 硬件 设备 之 间 添 加 了 一 个 中 间 层 。 该 层 主 要 作用 有 三 个 。 首 先 ， 
它 为 用 户 空 间 提供 了 一 种 硬件 的 抽象 接口 。 举 例 来 说 ， 当 需要 读 写 文件 的 时 候 ， 应 用 程序 就 可 以 
不 去 管 磁盘 类 型 和 介质 ， 甚 至 不 用 去 管 文件 所 在 的 文件 系统 到 底 是 哪 种 类 型 。 第 二 ， 系 统 调 用 保 
证 了 系统 的 稳定 和 安全 。 作 为 硬件 设备 和 应 用 程序 之 间 的 中 间 人 ， 内 核 可 以 基于 权限 、 用 户 类 型 
和 其 他 一 些 规 则 对 需要 进行 的 访问 进行 裁决 。 举 例 来 说 ， 这 样 可 以 避免 应 用 程序 不 正确 地 使 用 硬 
件 设备 ， 窃 取 其 他 进程 的 资源 ， 或 做 出 其 他 危害 系统 的 事情 。 第 三 ， 在 第 3 章 中 曾经 提 到 过 ， 每 
个 进程 都 运行 在 虚拟 系统 中 ， 而 在 用 户 空间 和 系统 的 其 余部 分 提供 这 样 一 层 公 共 接 口 ， 也 是 出 于 
这 种 考虑 。 如 果 应 用 程序 可 以 随意 访问 硬件 而 内 核 又 对 此 一 无 所 知 的 话 ， 几 乎 就 没 法 实现 多 任务 
和 虚拟 内 存 ， 当 然 也 不 可 能 实现 良好 的 稳定 性 和 安全 性 。 在 Linux 中 ， 系 统 调 用 是 用 户 空间 访问 
内 核 的 唯一 手段 ; 除 异常 和 陷入 外 ， 它 们 是 内 核 唯一 的 合法 入 口 。 实 际 上 ， 其 他 的 像 设备 文件 和 
/proc 之 类 的 方式 ， 最 终 也 还 是 要 通过 系统 调用 进行 访问 的 。 而 有 趣 的 是 ，Linux 提供 的 系统 调用 
却 比 大 部 分 操作 系统 都 少 得 多 。 本 章 重点 强调 Linux 系统 调用 的 规则 和 实现 方法 。 


5.2 API、POSIX 和 C 库 


一 般 情况 下 ， 应 用 程序 通过 在 用 户 空间 实现 的 应 用 编程 接口 (APD 而 不 是 直接 通过 系统 调用 
来 编程 。 这 点 很 重要 ， 因 为 应 用 程序 使 用 的 这 种 编程 接口 实际 上 并 不 需要 和 内 核 提供 的 系统 调用 
对 应 。 一 个 API 定义 了 一 组 应 用 程序 使 用 的 编程 接口 。 它 们 可 以 实现 成 一 个 系统 调用 ， 也 可 以 
通过 调用 多 个 系统 调用 来 实现 ， 而 完全 不 使 用 任何 系统 调用 也 不 存在 问题 。 实 际 上 ，API 可 以 在 
各 种 不 同 的 操作 系统 上 实现 ， 给 应 用 程序 提供 完全 相同 的 接口 ， 而 它们 本 身 在 这 些 系统 上 的 实现 
却 可 能 过 异 。 图 5-1 给 出 POSIX、API、C 库 以 及 系统 调用 之 间 的 关系 。 


日 x86 系统 上 大 概 有 250 个 系统 调用 每 种 体系 结构 都 会 定义 一 些 独 特 的 系统 调用 )。 尽 管 有 些 系统 还 没有 完全 
公布 所 有 的 系统 调用 ， 但 据 估 计 某 些 操作 系统 的 系统 调用 数 有 上 千 个 。 
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| 到 pan 一 | C 库 中 的 printf0 一 当 C 库 中 的 write0 ie0 系统 调用 


应 用 程序 > C 库 > 内 核 
图 5-1 调用 printf0 函数 时 ， 应 用 程序 、C 库 和 内 核 之 间 的 关系 


在 Unix 世界 中 ， 最 流行 的 应 用 编程 接口 是 基于 POSIX 标准 的 。 从 纯 技 术 的 角度 看 ，POSIX 
是 由 IEEE 9 的 一 组 标准 组 成 ， 其 目标 是 提供 一 套 大 体 上 基于 Unix 的 可 移植 操作 系统 标准 。 在 应 
用 场合 ，Linux 尽力 与 POSIX 和 SUSv3 兼容 。 

POSIX 是 说 明 API 和 系统 调用 之 间 关 系 的 一 个 极 好 例子 。 在 大 多 数 Unix 系统 上 ， 根 据 
POSIX 定义 的 API 函数 和 系统 调用 之 间 有 着 直接 关系 。 实 际 上 ，POSIX 标准 就 是 仿照 早期 Unix 
系统 的 接口 建立 的 。 另 一 方面 ， 许 多 操作 系统 ， 像 微软 的 Windows， 尽 管 是 非 Unix 系统 ， 也 提 
供 了 与 POSIX 兼容 的 库 。 

Linux 的 系统 调用 像 大 多 数 Unix 系统 一 样 ， 作 为 C 库 的 一 部 分 提供 。C 库 实现 了 Unix 系统 
的 主要 API， 包 括 标准 C 库 函 数 和 系统 调用 接口 。 所 有 的 C 程序 都 可 以 使 用 C 库 ， 而 由 于 C 语 
言 本 身 的 特点 ， 其 他 语言 也 可 以 很 方便 地 把 它们 封装 起 来 使 用 。 此 外 ，C 库 提 供 了 POSIX 的 绝 
大 部 分 API。 

从 程序 员 的 角度 看 ， 系 统 调用 无 关 紧 要 ， 他 们 只 需要 跟 API 打交道 就 可 以 了 。 相 反 ， 内 核 
只 跟 系统 调用 打交道 ; 库 函 数 及 应 用 程序 是 怎么 使 用 系统 调用 ， 不 是 内 核 所 关心 的 。 但 是 ， 内 核 
必须 时 刻 牢 记 系 统 调 用 所 有 潜在 的 用 途 ， 并 保证 它们 有 良好 的 通用 性 和 灵活 性 。 

关于 Unix 的 接口 设计 有 一 句 格言 “提供 机 制 而 不 是 策略 ”。 换 句 话 说，Unix 的 系统 调用 抽 
象 出 了 用 于 完成 某 种 确定 的 目的 的 函数 。 至 于 这 些 函 数 怎么 用 完全 不 需要 内 核 去 关心 9。 


5.3 ”系统 调用 


要 访问 系统 调用 (在 Linux 中 常 称 作 syscall)， 通 常 通过 C 库 中 定义 的 函数 调用 来 进行 。 它 
们 通常 都 需要 定义 零 个 、 一 个 或 几 个 参数 〈 输 入 ) 而 且 可 能 产生 一 些 副作用 号 ， 例 如 ， 写 某 个 
文件 或 向 给 定 的 指针 拷贝 数据 等 。 系 统 调用 还 会 通过 一 个 long 类 型 的 返回 值 来 表示 成 功 或 者 
错误 。 通 常 ， 但 也 不 绝对 ， 用 一 个 负 的 返回 值 来 表明 错误 。 返 回 一 个 0 值 通常 〈 当 然 仍 不 是 绝 
对 的 ) 表明 成 功 。 系 统 调用 在 出 现 错误 的 时 候 C 库 会 把 错误 码 写 人 errno 全 局 变量 。 通 过 调用 
perror0 库 函 数 ， 可 以 把 该 变量 翻译 成 用 户 可 以 理解 的 错误 字符 串 。 

当然 ， 系 统 调 用 最 终 具 有 一 种 明确 的 操作 。 例 如 getpid0 系统 调用 ， 根 据 定 义 它 会 返回 当前 





日 IEEE (eye-triple-E) 是 电气 和 电子 工程 师 协 会 。 这 是 一 个 非 熏 利 组 织 ， 它 涉及 的 技术 领域 非常 广泛 ， 并 且 对 
许多 重要 标准 负责 。 谷 了解 更 多 信息 ， 请 访问 http://www.ieee.org。 

全 ”区别 对 待机 制 (mechanism) 和 策略 〈policy) 是 Unix 设计 中 的 一 大 亮点 。 大 部 分 的 编程 问题 都 可 以 被 切割 成 
两 个 部 分 “需要 提供 什么 功能 ”( 机 制 》 和 “怎样 实现 这 些 功能 ”( 策 赂 )。 如 果 由 程序 中 的 独立 部 分 分 别 负 
责 机 制 和 策略 的 实现 ， 那 么 开发 软件 就 更 容易 ， 也 更 容易 适应 不 同 的 需求 。 一 一 译 者 注 

和 @ ”注意 这 里 用 的 是 可 能 。 尽 管 绝 大 部 分 调用 都 会 产生 某 种 副作用 (就 是 说 ， 它 们 会 使 系统 的 状态 发 生 某 种 变 
化 )， 但 还 是 有 一 些 系统 调用 ， 如 getpid0， 仅 仅 返 回 一 些 内 核 数 据 。 

加 ”使 用 long 类 型 是 为 了 与 64 位 的 硬件 体系 结构 保持 兼容 。 
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进程 的 PID。 内 核 中 它 的 实现 非常 简单 : 
SYSCALL_DEFINEO (getpid) 
{ 
} 


注意 ， 定 义 中 并 没有 规定 它 要 如 何 实现 。 内 核 必须 提供 系统 调用 所 希望 完成 的 功能 ， 但 它 
完全 可 以 按照 自己 预期 的 方式 去 实现 ， 只 要 最 后 的 结果 正确 就 行 了 。 当 然 ， 上 面 的 系统 调用 太 简 
单 ， 也 没有 什么 更 多 的 实现 手段 9 。 

SYSCALL_DEFINE0 只 是 一 个 宏 ， 它 定义 一 个 无 参数 的 系统 调用 因此 这 里 为 数字 0)， 展 
开 后 的 代码 如 下 : 


asmlinkage long sys_getpid(void) 


我 们 看 一 下 如 何 定 义 系统 调用 。 首 先 ， 注 意 函 数 声明 中 的 asmlinkage 限定 词 ， 这 是 一 个 编 
译 指令 ， 通 知 编译 器 仅 从 栈 中 提取 该 函数 的 参数 。 所 有 的 系统 调用 都 需要 这 个 限定 词 。 其 次 ， 国 
数 返 回 long。 为 了 保证 32 位 和 64 位 系统 的 兼容 ， 系 统 调用 在 用 户 空间 和 内 核 空间 有 不 同 的 返回 
值 类 型 ， 在 用 户 空间 为 nt， 在 内 核 空间 为 long。 最 后 ， 注 意 系统 调用 get_pid0 在 内 核 中 被 定义 
成 sys_getpid0。 这 是 Linux 中 所 有 系统 调用 都 应 该 遵守 的 命名 规则 ， 系 统 调用 bar0 在 内 核 中 也 
实现 为 sys_bar0 函数 。 


5.3.1 系统 调用 号 


在 Linux 中 ， 每 个 系统 调用 被 赋予 一 个 系统 调用 号 。 这 样 ， 通 过 这 个 独一无二 的 号 就 可 以 关 
联系 统 调 用 。 当 用 户 空间 的 进程 执行 一 个 系统 调用 的 时 候 ， 这 个 系统 调用 号 就 用 来 指明 到 底 是 要 
执行 哪个 系统 调用 ; 进程 不 会 提 及 系统 调用 的 名 称 。 

系统 调用 号 相当 重要 ， 一 旦 分 配 就 不 能 再 有 任何 变更 ， 否 则 编译 好 的 应 用 程序 就 会 崩溃 。 此 
外 ， 如 果 一 个 系统 调用 被 删除 ， 它 所 占用 的 系统 调用 号 也 不 允许 被 回收 利用 ， 否 则 ， 以 前 编译 过 
的 代码 会 调用 这 个 系统 调用 ， 但 事实 上 却 调 用 的 是 另 一 个 系统 调用 。Linux 有 一 个 “未 实现 ” 系 
统 调用 sys_ni_syscall()， 它 除了 返回 -ENOSYS 外 不 做 任何 其 他 工作 ， 这 个 错误 号 就 是 专门 针对 
无 效 的 系统 调用 而 设 的 。 虽 然 很 罕见 ， 但 如 果 一 个 系统 调用 被 删除 ， 或 者 变 得 不 可 用 ， 这 个 函数 
就 要 负责 “填补 空缺 ”。 

内 核 记 录 了 系统 调用 表 中 的 所 有 已 注册 过 的 系统 调用 的 列表 ， 存 储 在 sys_call_table 中 。 每 
一 种 体系 结构 中 ， 都 明确 定义 了 这 个 表 ， 在 x86-64 中 ， 它 定义 于 arch/i386/kernel/syscall 64.c 文 
件 中 。 这 个 表 为 每 一 个 有 效 的 系统 调用 指定 了 唯一 的 系统 调用 号 。 


5.3.2 ”系统 调用 的 性 能 
Linux 系统 调用 比 其 他 许多 操作 系统 执行 得 要 快 。Linux 很 短 的 上 下 文 切换 时 间 是 一 个 重要 


return task tgid vnr(current); // returns current->tgid 


日 ”你 可 能 会 想 为 什么 getpidO 返回 的 是 tgid〈 即 线程 组 卫 ) 呢 ? 原因 在 于 ， 对 于 普通 进程 来 说 ，TGID 和 PID 相等 。 
对 于 线程 来 说 ， 同 一 线程 组 内 的 所 有 线程 其 TGID 都 相等 。 这 使 得 这 些 线程 能 够 调用 getpid0 并 得 到 相同 的 PID。 
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原因 ， 进 出 内 核 都 被 优化 得 简洁 高 效 。 另 外 一 个 原因 是 系统 调用 处 理 程序 和 每 个 系统 调用 本 身 也 
都 非常 简洁 。 


5.4 系统 调用 处 理 程序 


用 户 空间 的 程序 无 法 直接 执行 内 核 代 码 。 它 们 不 能 直接 调用 内 核 空 间 中 的 函数 ， 因 为 内 核 驻 
留 在 受 保护 的 地 址 空间 上 。 如 果 进 程 可 以 直接 在 内 核 的 地 址 空间 上 读 写 的 话 ， 系 统 的 安全 性 和 稳 
定性 将 不 复 存在 。 

所 以 ， 应 用 程序 应 该 以 某 种 方式 通知 系统 ， 告 诉 内 核 自 己 需要 执行 一 个 系统 调用 ， 希 望 系统 
切换 到 内 核 态 ， 这 样 内 核 就 可 以 代表 应 用 程序 在 内 核 空间 执行 系统 调用 。 

通知 内 核 的 机 制 是 靠 软 中 断 实现 的 : 通过 引发 一 个 异常 来 促使 系统 切换 到 内 核 态 去 执行 异 党 
处 理 程序 。 此 时 的 异常 处 理 程序 实际 上 就 是 系统 调用 处 理 程序 。 在 x86 系统 上 预定 义 的 软 中 断 是 
中 断 号 128， 通 过 int $0x80 指令 触发 该 中 断 。 这 条 指令 会 触发 一 个 异常 导致 系统 切换 到 内 核 态 并 
执行 第 128 号 异常 处 理 程 序 ， 而 该 程序 正 是 系统 调用 处 理 程序 。 这 个 处 理 程序 名 字 起 得 很 贴切 ， 
叫 system_call0。 它 与 硬件 体系 结构 紧密 相关 8，x86-64 的 系统 上 在 entry 64.8 文件 中 用 汇编 语 
言 编 写 。 最 近 ，x86 处 理 器 增加 了 一 条 叫做 sysenter 的 指令 。 与 int 中 断 指令 相 比 ， 这 条 指令 提供 
了 更 快 、 更 专业 的 陷入 内 核 执行 系统 调用 的 方式 。 对 这 条 指令 的 支持 很 快 被 加 入 内 核 。 且 不 管 系 
统 调用 处 理 程序 被 如 何 调用 ， 用 户 空间 引起 异常 或 陷入 内 核 就 是 一 个 重要 的 概念 。 


5.4.1 “指定 恰当 的 系统 调用 


因为 所 有 的 系统 调用 陷入 内 核 的 方式 都 一 样 ， 所 以 仅仅 是 陷入 内 核 空间 是 不 够 的 。 因 此 必须 
把 系统 调用 号 一 并 传 给 内 核 。 在 x86 上 , 系统 调用 号 是 通过 eax 寄存 器 传递 给 内 核 的 。 在 陷入 内 
核 之 前 ， 用 户 空间 就 把 相应 系统 调用 所 对 应 的 号 放 入 eax 中 。 这 样 系统 调用 处 理 程 序 一 旦 运行 ， 
就 可 以 从 eax 中 得 到 数据 。 其 他 体系 结构 上 的 实现 也 都 类 似 。 

system_call0 函数 通过 将 给 定 的 系统 调用 号 与 NR_syscalls 做 比较 来 检查 其 有 效 性 。 如 果 它 
大 于 或 者 等 于 NR_syscalls， 该 函数 就 返回 -ENOSYS。 否 则 ， 就 执行 相应 的 系统 调用 : 


Call *sys call table(,%rax,8) 


由 于 系统 调用 表 中 的 表 项 是 以 64 位 (8 字 节 ) 类 型 存放 的 ， 所 以 内 核 需要 将 给 定 的 系统 调 
用 号 乘 以 4， 然后 用 所 得 的 结果 在 该 表 中 查询 其 位 置 。 在 x86-32 系统 上 ， 代 码 很 类 似 ， 只 是 用 4 
代替 8， 参 见 图 5-2。 


5.4.2 参数 传递 


除了 系统 调用 号 以 外 ， 大 部 分 系统 调用 都 还 需要 一 些 外 部 的 参数 输入 。 所 以 ， 在 发 生 陷入 的 
时 候 ， 应 该 把 这 些 参数 从 用 户 空 间 传 给 内 核 。 最 简单 的 办 法 就 是 像 传递 系统 调用 号 一 样 ， 把 这 些 


合 下面 许 多 关于 系统 调用 处 理 程序 的 描述 都 是 针对 x86 版 本 的 。 但 不 用 担心 ， 所 有 体系 结构 上 的 实现 都 类 似 。 
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参数 也 存放 在 寄存 器 里 。 在 x86-32 系统 上 ，ebx、ecx、edx、esi 和 edi 按照 顺序 存放 前 五 个 参数 。 
需要 六 个 或 六 个 以 上 参数 的 情况 不 多 见 ， 此 时 ， 应 该 用 一 个 单独 的 寄存 器 存放 指向 所 有 这 些 参数 
在 用 户 空间 地 址 的 指针 。 











read0 封装 例 程 


军 





C 库 系统 调用 处 理 程序 sys_read() 
read() wrapper 
用 户 空间 内 核 空间 


图 5-2 调用 系统 调用 处 理 程序 以 执行 一 个 系统 调用 
给 用 户 空间 的 返回 值 也 通过 寄存 器 传递 。 在 x86 系统 上 ， 它 存放 在 eax 寄存 器 中 。 


5.5 ”系统 调用 的 实现 


实际 上 ， 一 个 Linux 的 系统 调用 在 实现 时 并 不 需要 太 关 心 它 和 系统 调用 处 理 程序 之 间 的 关 
系 。 给 Linux 添加 一 个 新 的 系统 调用 是 件 相 对 容易 的 工作 。 怎 样 设计 和 实现 一 个 系统 调用 是 难题 
所 在 ， 而 把 它 加 到 内 核 里 却 无 须 太 多 周折 。 让 我 们 关注 一 下 实现 一 个 新 的 Linux 系统 调用 所 需 的 
步骤 。 














5.5.1 ”实现 系统 调用 


实现 一 个 新 的 系统 调用 的 第 一 步 是 决定 它 的 用 途 。 它 要 做 些 什么 ? 每 个 系统 调用 都 应 该 有 一 
个 明确 的 用 途 。 在 Linux 中 不 提倡 采用 多 用 途 的 系统 调用 〈 一 个 系统 调用 通过 传递 不 同 的 参数 值 
来 选择 完成 不 同 的 工作 )。ioctlO 就 是 一 个 很 好 的 例子 ， 告 诉 了 我 们 不 应 当 去 做 什么 。 

新 系统 调用 的 参数 、 返 回 值 和 错误 码 又 该 是 什么 呢 ? 系统 调用 的 接口 应 该 力求 简洁 ， 参 数 尽 
可 能 少 。 系 统 调用 的 语义 和 行为 非常 关键 ; 因为 应 用 程序 依赖 于 它们 ， 所 以 它们 应 力求 稳定 ， 不 
做 改动 。 设 想 一 下 ， 如 果 功 能 多 次 改变 会 怎样 。 新 的 功能 是 否 可 以 追加 到 系统 调用 亦 或 是 否 某 个 
改变 将 需要 一 个 全 新 的 函数 ? 是 否 可 以 容易 地 修订 错误 而 不 用 破坏 向 后 兼容 ? 很 多 系统 调用 提供 
了 标志 参数 以 确保 向 前 兼容 。 标 志 并 不 是 用 来 让 单个 系统 调用 具有 多 个 不 同 的 行为 《如 前 所 述 ， 
这 是 不 允许 的 )， 而 是 为 了 即使 增加 新 的 功能 和 选项 ， 也 不 破坏 向 后 兼容 或 不 需要 增加 新 的 系统 
调用 。 

设计 接口 的 时 候 要 尽量 为 将 来 多 做 考虑 。 你 是 不 是 对 函数 做 了 不 必要 的 限制 ? 系统 调用 设计 
得 越 通用 越 好 。 不 要 假设 这 个 系统 调用 现在 怎么 用 将 来 也 一 定 就 是 这 么 用 。 系 统 调用 的 目的 可 能 
不 变 ， 但 它 的 用 法 却 可 能 改变 。 这 个 系统 调用 可 移植 吗 ? 别 对 机 器 的 字 节 长 度 和 字 节 序 做 假设 。 
第 19 章 将 讨论 这 个 话题 。 要 确保 不 对 系统 调用 做 错误 的 假设 ， 否 则 将 来 这 个 调用 就 可 能 会 崩溃 。 
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记 住 Unix 的 格言 : “提供 机 制 而 不 是 策略 ”。 

当 你 写 一 个 系统 调用 的 时 候 ， 要 时 刻 注意 可 移植 性 和 健壮 性 ， 不 但 要 考虑 当前 ， 还 要 为 将 来 
做 打算 。 基 本 的 Unix 系统 调用 经 受 住 了 时 间 的 考验 ; 它们 中 的 很 大 一 部 分 到 现在 都 还 和 30 年 前 
一 样 适 用 和 有 效 。 


5.5.2 参数 验证 


系统 调用 必须 仔细 检查 它们 所 有 的 参数 是 否 合法 有 效 。 系 统 调用 在 内 核 空间 执行 ， 如 果 任 由 
用 户 将 不 合法 的 输入 传递 给 内 核 ， 那 么 系统 的 安全 和 稳定 将 面临 极 大 的 考验 。 

举例 来 说 ， 与 文件 WO 相关 的 系统 调用 必须 检查 文件 描述 符 是 否 有 效 。 与 进程 相关 的 函数 必 
须 检查 提供 的 PID 是否 有 效 。 必 须 检查 每 个 参数 ， 保 证 它们 不 但 合法 有 效 ， 而 且 正 确 。 进 程 不 
应 当 让 内 核 去 访问 那些 它 无 权 访 问 的 资源 。 

最 重要 的 一 种 检查 就 是 检查 用 户 提供 的 指针 是 否 有 效 。 试 想 ， 如 果 一 个 进程 可 以 给 内 核 传 递 
指针 而 又 无 须 检查 ， 那 么 它 就 可 以 给 出 一 个 它 根 本 就 没有 访问 权限 的 指针 ， 哄 骗 内 核 去 为 它 找 贝 
本 不 允许 它 访问 的 数据 ， 如 原本 属于 其 他 进程 的 数据 或 者 不 可 读 的 映射 数据 。 在 接收 一 个 用 户 空 
间 的 指针 之 前 ， 内 核 必须 保证 : 

。 指 针 指 向 的 内 存 区 域 属 于 用 户 空间 。 进 程 决 不 能 哄骗 内 核 去 读 内 核 空间 的 数据 。 

。 指针 指向 的 内 存 区 域 在 进程 的 地 址 空间 里 。 进 程 决 不 能 哄骗 内 核 去 读 其 他 进程 的 数据 。 

。 如 果 是 读 ， 该 内 存 应 被 标记 为 可 读 ; 如 果 是 写 ， 该 内 存 应 被 标记 为 可 写 ; 如 果 是 可 执行 ， 

该 内 存 被 标记 为 可 执行 。 进 程 决 不 能 绕 过 内 存 访 问 限制 。 

内 核 提 供 了 两 个 方法 来 完成 必须 的 检查 和 内 核 空 间 与 用 户 空间 之 间 数 据 的 来 回 拷 贝 。 注 意 ， 
内 核 无 论 何 时 都 不 能 轻率 地 接受 来 自用 户 空 间 的 指针 ! 这 两 个 方法 中 必须 经 常 有 一 个 被 使 用 。 

为 了 向 用 户 空间 写 入 数据 ， 内 核 提供 了 copy_to_user0， 它 需要 三 个 参数 。 第 一 个 参数 是 进 
程 空间 中 的 目的 内 存 地 址 ， 第 二 个 是 内 核 空间 内 的 源 地 址 ， 最 后 一 个 参数 是 需要 拷贝 的 数据 长 度 
( 字 节 数 )。 

为 了 从 用 户 空间 读 取 数 据 ， 内 核 提 供 了 copy_from_user0， 它 和 copy_to_user(0 相似 。 该 函 
数 把 第 二 个 参数 指定 的 位 置 上 的 数据 拷贝 到 第 一 个 参数 指定 的 位 置 上 ， 找 贝 的 数据 长 度 由 第 三 个 
参数 决定 。 

如 果 执 行 失败 ， 这 两 个 国 数 返回 的 都 是 设 能 完成 拷贝 的 数据 的 字 节 数 。 如 果 成 功 ， 则 返回 
0。 当 出 现 上 述 错误 时 ， 系 统 调用 返回 标准 -EFAULT。 

让 我 们 以 一 个 既 用 了 copy_from_user0 又 用 了 copy _to_user0 的 系统 调用 作 例子 进行 考察 。 
这 个 系统 调用 silly_copy0 毫 无 实际 用 处 ， 它 从 第 一 个 参数 里 拷贝 数据 到 第 二 个 参数 。 这 种 用 途 
让 人 无 法 理解 ， 它 毫 无 必要 地 让 内 核 空 间作 为 中 转 站 ， 把 用 户 空间 的 数据 从 一 个 位 置 复制 到 另外 
一 个 位 置 。 但 它 却 能 演示 出 上 述 函 数 的 用 法 。 

/* 


* silly_copy 没有 实际 价值 的 系统 调用 ， 它 把 len 字 节 的 数据 从 'src' 拷贝 到 'dst'， 毫 无 理由 地 让 内 核 空 
* 间作 为 中 转 站 。 但 这 的 确 是 个 好 例子 
*/ 
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SYSCALL DEFINE3 (silly copy, 
unsigned long *, src, 
unsigned long *, dst, 
unsigned long len) 


unsigned long buf; 

/* 将 用 户 地 址 空间 中 的 src 拷贝 进 buf */ 

if (copy_ from user(gbuf, src, len)) 
return -EFAULT; 

/* 将 buf 拷贝 进 用 户 地 址 空间 中 的 ast */ 

if (copy to_user(dst，&buf，1en) ) 
return -EFAULT; 

/* 返回 拷贝 的 数据 量 */ 

return len; 


} 


注意 ，copy_to_user() 和 copy_from_userO 都 有 可 能 引起 阻塞 。 当 包含 用 户 数据 的 页 被 换 出 
到 硬盘 上 而 不 是 在 物理 内 存 上 的 时 候 ， 这 种 情况 就 会 发 生 。 此 时 ， 进 程 就 会 休眠 ， 直 到 缺 页 处 理 
程序 将 该 页 从 硬盘 重新 换 回 物理 内 存 。 

最 后 一 项 检查 针对 是 否 有 合法 权限 。 在 老 版 本 的 Linux 内 核 中 ， 需 要 超级 用 户 权限 的 系统 调 
用 才 可 以 通过 调用 suser0 函数 这 个 标准 动作 来 完成 检查 。 这 个 函数 只 能 检查 用 户 是 否 为 超级 用 
户 ; 现在 它 已 经 被 一 个 更 细 粒 度 的 “权能 ”机 制 代 赫 。 新 的 系统 允许 检查 针对 特定 资源 的 特殊 权 
限 。 调 用 者 可 以 使 用 capable0 函数 来 检查 是 否 有 权能 对 指定 的 资源 进行 操作 ， 如 果 它 返回 非 0 
值 ， 调 用 者 就 有 权 进 行 操作 ， 返 回 0 则 无 权 操 作 。 举 个 例子 ，capable(CAP_ SYS_NICE) 可 以 检 
查 调 用 者 是 否 有 权 改 变 其 他 进程 的 nice 值 。 默 认 情况 下 ， 属 于 超级 用 户 的 进程 拥有 所 有 权利 而 
非 超级 用 户 没 有 任何 权利 。 例 如 ， 下 面 是 rebootO 系统 调用 ， 注 意 ， 第 一 步 是 如 何 确保 调用 进程 
具有 CAP_SYS_REBOOT 权能 。 如 果 那 样 一 个 条 件 语 名 被 删除 ， 任 何 进程 都 可 以 启动 系统 了 。 


SYSCALL DEFINE4 (reboot, 
int, magicl, 
int, magic2, 
unsigned int, cmd, 
void _ user *, arg) 


char buffer[256]，; 


/* 我 们 只 信任 启动 系统 的 系统 管理 员 */ 
if (!capable(CRP_SYS_BOOT) ) 
return -EPERM; 


/* 为 了 安全 起 见 ， 我 们 需要 "magic" 参数 */ 
if (magici != LINUX REBOOT MAGIC1 || 


(magic2 != LINUX REBOOT MAGIC2 && 
magic2 != LINUX REBOOT MAGIC2A && 
magic2 != LINUX REBOOT MAGIC2B && 
magic2 != LINUX REBOOT MAGIC2C)) 


return -EINVAL; 


/* 当 未 设置 pm_power_off 时 ， 请 不 要 试图 让 power_off 的 代码 看 起 来 像 是 可 以 停机 ， 而 应 该 采用 更 
简单 的 方式 */ 
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if ((cmd == LINUX REBOOT CMD POWER OFF) && !pm Power off) 
cmd = LINUX REBOOT CMD HALT; 


lock kernel (); 

switch (cmd) { 

case LINUX REBOOT CMD RESTART: 
kernel restart (NULL); 
break; 


case LINUX REBOOT CMD CAD ON: 


CAD=1; 
break; 

case LINUX REBOOT CMD CAD OFF: 
CAD=0; 
break; 


Case LINUX REBOOT CMD HALT: 
kernel halt{(); 
unlock kernel (); 
do_exit (0); 
break; 


case LINUX REBOOT CMD POWER OFF: 
kernel Power off () ; 
unlock kernel () ; 
do_exit (0) ; 
break; 


case LINUX REBOOT CMD RESTART2: 
if (strncpy from user(&buffer[0], arg, sizeof (buffer) - 1) < 0) { 

unlock_ kernel (); 

return -EFAULT; 


} 


buffer [sizeof (buffer)} - 1] = '\0’'; 


kernel restart (buffer); 
break; 


default: 
unlock kernel{(); 
return -EINVAL; 


} 


unlock kernel (); 
return 0; 


} 
参见 <linux/capability.h>， 其 中 包含 一 份 所 有 这 些 权能 和 其 对 应 的 权限 的 列表 。 


5.6 系统 调用 上 下 文 
在 第 3 章 中 曾经 讨论 过 ， 内 核 在 执行 系统 调用 的 时 候 处 于 进程 上 下 文 。current 指针 指向 当 
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前 任务 ， 即 引发 系统 调用 的 那个 进程 。 

在 进程 上 下 文中 ， 内 核 可 以 休眠 〈 比 如 在 系统 调用 阻塞 或 显 式 调 用 schedule0 的 时 候 ) 并 且 
可 以 被 抢占 。 这 两 点 都 很 重要 。 首 先 ， 能 够 休眠 说 明 系 统 调 用 可 以 使 用 内 核 提供 的 绝 大 部 分 功 
能 。 在 第 7 章 中 我 们 会 看 到 ， 休 眠 的 能 力 会 给 内 核 编程 带 来 极 大 便利 9。 在 进程 上 下 文中 能 够 被 
抢占 其 实 表明 ， 像 用 户 空间 内 的 进程 一 样 ， 当 前 的 进程 同样 可 以 被 其 他 进程 抢占 。 因 为 新 的 进程 
可 以 使 用 相同 的 系统 调用 ， 所 以 必须 小 心 ， 保 证 该 系统 调用 是 可 重 入 和 的。 当然， 这 也 是 在 对 称 多 
处 理 中 必须 同样 关心 的 问题 。 关 于 可 重 入 的 保护 涵盖 在 第 9 章 和 第 10 章 中 。 

当 系统 调用 返回 的 时 候 ， 控 制 权 仍然 在 system_call0 中 ， 它 最 终 会 负责 切换 到 用 户 空间 ， 并 
让 用 户 进程 继续 执行 下 去 。 


5.6.1 绑 定 一 个 系统 调用 的 最 后 步骤 


当 编写 完 一 个 系统 调用 后 ， 把 它 注册 成 一 个 正式 的 系统 调用 是 件 琐碎 的 工作 : 

1) 首先 ， 在 系统 调用 表 的 最 后 加 入 一 个 表 项 。 每 种 支持 该 系统 调用 的 硬件 体系 都 必须 做 这 
样 的 工作 〈 大 部 分 的 系统 调用 都 针对 所 有 的 体系 结构 )。 从 0 开始 算 起 ， 系 统 调 用 在 该 表 中 的 位 
置 就 是 它 的 系统 调用 号 。 如 第 10 个 系统 调用 分 配 到 的 系统 调用 号 为 9。 

2)》 对 于 所 支持 的 各 种 体系 结构 ， 系 统 调用 号 都 必须 定义 于 <asm/unistd.h> 中 。 

3) 系统 调用 必须 被 编译 进 内 核 映 象 〈 不 能 被 编译 成 模块 )。 这 只 要 把 它 放 进 kernel/ 下 的 一 
个 相关 文件 中 就 可 以 了 ， 比 如 sys.c， 它 包含 了 各 种 各 样 的 系统 调用 。 

让 我 们 通过 一 个 虚构 的 系统 调用 foo0 来 仔细 观察 一 下 这 些 步骤 。 首 先 ， 我 们 要 把 sys_foo 
加 入 到 系统 调用 表 中 去 。 对 于 大 多 数 体系 结构 来 说 ， 该 表 位 于 entry.s 文件 中 ， 形 式 如 下 : 


ENTRY (sys_cal1_table) 
.long SYSs_restart_SYyscal1 /* 0 */ 
.long sys_exit 
.long sys_fork 
.long sys_read 
.long sys write 
.long sys_open /* 5 */ 


.long sys_eventfd2 

.long sys_epoll createl 

.long sys_Gup3 /* 330 */ 
.long sys pipe2 

-long sys_ inotify initl 

.long sys preadyv 

.long sys_pwritev 


日” 中 断 处 理 程序 不 能 休眠 ， 这 使 得 中 断 处 理 程序 所 能 进行 的 操作 较 之 运行 在 进程 上 下 文中 的 系统 调用 所 能 进行 
的 操作 受到 了 极 大 的 限制 。 
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.long sys rt tgsigqueueinfo /* 335 */ 
.long sys_ perf event open 
.long sys_recvmmsg 


我 们 把 新 的 系统 调用 加 到 这 个 表 的 末尾 : 


.long sys_foo 


虽然 没有 明确 地 指定 编号 ， 但 我 们 加 入 的 这 个 系统 调用 被 按照 次 序 分 配给 了 338 这 个 系统 
调用 号 。 对 于 每 种 需要 支持 的 体系 结构 ， 我 们 都 必须 将 自己 的 系统 调用 加 入 到 其 系统 调用 表 中 
去 。 每 种 体系 结构 不 需要 对 应 相同 的 系统 调用 号 。 系 统 调用 号 是 专属 于 体系 结构 ABI (应 用 程序 
二 进 制 接口 ) 的 部 分 。 通 常 ， 你 需要 让 系统 调用 适应 每 种 体系 结构 。 你 可 以 注意 一 下 ， 每 隔 5 个 
表 项 就 加 入 一 个 调用 号 注释 的 习惯 ， 这 可 以 在 查找 系统 调用 对 应 的 调用 号 时 提供 方便 。 

接 下 来 ， 我 们 把 系统 调用 号 加 入 到 <asm/unistd.h> 中 ， 它 的 格式 如 下 : 


/* 

* 本 文件 包含 系统 调用 号 

*/ 

#define _ NR restart syscall 0 
#define _ NR exit 1 
#define _ NR fork 2 
#define _ NR read 3 
#define _ NR write 4 
#define _ NR _open 5 
#define _ NR signalfd4 327 
#define _ NR eventfd2 328 
#define _ NR epoll createl 329 
#define _ NR_dup3 330 
#define _ NR pipe2 331 
#define _ NR inotify initi 332 
#define _ NR preadv 333 
#define _ NR pwritev 334 


#define _NR rt tgsigqueueinfo 335 
#define _ NR perf_ event_ open 336 
#define.__ NR_ recvmmsg 337 


然后 ， 我 们 在 该 列表 中 加 入 下 面 这 行 : 

#define __NR foo 338 

最 后 ， 我 们 来 实现 foo0 系统 调用 。 无 论 何 种 配置 ， 该 系统 调用 都 必须 编译 到 核心 的 
内 核 映 象 中 去 ， 所 以 在 这 个 例子 中 我 们 把 它 放 进 kernel/sys.c 文件 中 。 你 也 可 以 将 其 放 到 与 
其 功能 联系 最 紧密 的 代码 中 去 ， 假 如 它 的 功能 与 调度 相关 ， 那 么 你 也 可 以 把 它 放 到 kernel/ 
sched.c 中 去 。 


#include <asm/page.h> 
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/* 

* sys_foo - 每 个 人 喜欢 的 系统 调用 
* 返回 每 个 进程 的 内 核 栈 大 小 

*/ 


asmlinkage long sys_foo(void) 


return THREAD SIZE; 


} 
就 是 这 样 ! 现在 就 可 以 启动 内 核 并 在 用 户 空间 调用 foo0 系统 调用 了 。 


5.6.2 ”从 用 户 空 间 访问 系统 调用 


通常 ， 系 统 调 用 靠 C 库 支 持 。 用 户 程序 通过 包含 标准 头 文件 并 和 C 库 链 接 ， 就 可 以 使 用 系 
统 调 用 〈 或 者 调用 库 函 数 ， 再 由 库 函 数 实际 调用 )。 但 如 果 你 仅仅 写 出 系统 调用 ，glibc 库 恐 怕 并 
不 提供 支持 。 

值得 庆幸 的 是 ，Linux 本 身 提供 了 一 组 宏 ， 用 于 直接 对 系统 调用 进行 访问 。 它 会 设置 好 寄存 
器 并 调用 陷入 指令 。 这 些 宏 是 _syscalln0， 其 中 的 范围 从 0 到 6， 代表 需要 传递 给 系统 调用 的 
参数 个 数 ， 这 是 由 于 该 宏 必 须 了 解 到 底 有 多 少 参 数 按照 什么 次 序 压 人 寄存 器 。 举 个 例子 ，open0 
系统 调用 的 定义 是 : 


long open (const char *filename, :int flags, int mode) 


而 不 靠 库 支持 ， 直 接 调用 此 系统 调用 的 宏 的 形式 为 : 


#define NR_open 5 

_syscall3 (long, open, const char*, filename, int, flags, int, mode) 

这 样 ， 应 用 程序 就 可 以 直接 使 用 open0。 

对 于 每 个 宏 来 说 ， 都 有 2+2Xn 个 参数 。 第 一 个 参数 对 应 着 系统 调用 的 返回 值 类 型 。 第 二 
个 参数 是 系统 调用 的 名 称 。 再 以 后 是 按照 系统 调用 参数 的 顺序 排列 的 每 个 参数 的 类 型 和 名 称 。 
_NR_open 在 <asm/unistd.h> 中 定义 ， 是 系统 调用 号 。 该 宏 会 被 扩展 成 为 内 嵌 汇 编 的 C 函数 ; 由 
汇编 语言 执行 前 面 内 容 中 所 讨论 的 步骤 ， 将 系统 调用 号 和 参数 压 和 人 寄存 器 并 触发 软 中 断 来 陷入 内 
核 。 调 用 open0 系统 调用 直接 把 上 面 的 宏 放 置 在 应 用 程序 中 就 可 以 了 。 

让 我 们 写 一 个 宏 来 使 用 前 面 编写 的 foo( 系统 调用 ， 然 后 再 写 出 测试 代码 炫耀 一 下 我 们 所 做 
的 努力 。 

#define _ NR foo 283 


__ syscalld0 (long, foo) 


int main {) 


{ 


long stack size; 


stack size = foo {(); 
printf (“The kernel stack size is $ld\n”, stack size); 


return 0; 
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5.6.3 ”为 什么 不 通过 系统 调用 的 方式 实现 


前 面 的 内 容 已 经 告诉 大 家 ， 建 立 一 个 新 的 系统 调用 非常 容易 ， 但 却 绝 不 提倡 这 么 做 。 的 确 ， 
你 应 该 多 多 练习 如 何 给 一 个 新 的 系统 调用 加 警告 与 限制 。 通 常 都 会 有 更 好 的 办 法 用 来 代替 新 建 一 
个 系统 调用 以 作 实现 。 让 我 们 看 看 采用 系统 调用 作为 实现 方式 的 利 坏 和 替代 的 方法 。 

建立 一 个 新 的 系统 调用 的 好 处 : 

。 系 统 调用 创建 容易 且 使 用 方便 。 

。Linux 系统 调用 的 高 性 能 显而易见 。 
问题 是 : 

* 你 需要 一 个 系统 调用 号 ， 而 这 需要 一 个 内 核 在 处 于 开发 版 本 的 时 候 由 官方 分 配给 你 。 

。 系 统 调用 被 加 入 稳定 内 核 后 就 被 固化 了 ， 为 了 避免 应 用 程序 的 凯 涡 ， 它 的 接口 不 允许 做 改动 。 

* 需要 将 系统 调用 分 别 注册 到 每 个 需要 支持 的 体系 结构 中 去 。 

。 在 脚本 中 不 容易 调用 系统 调用 ， 也 不 能 从 文件 系统 直接 访问 系统 调用 。 

。 由 于 你 需要 系统 调用 号 ， 因 此 在 主 内 核 树 之 外 是 很 难 维护 和 使 用 系统 调用 的 。 

。 如果 仅仅 进行 简单 的 信息 交换 ， 系 统 调用 就 大 材 小 用 了 。 
替代 方法 : 

实现 一 个 设备 节点 ， 并 对 此 实现 read0 和 write0。 使 用 ioctiO 对 特定 的 设置 进行 操作 或 者 对 
特定 的 信息 进行 检索 。 

。 像 信号 量 这 样 的 某 些 接口 ， 可 以 用 文件 描述 符 来 表示 ， 因 此 也 就 可 以 按 上 述 方式 对 其 进行 

操作 。 

。 把 增加 的 信息 作为 一 个 文件 放 在 sysfs 的 合适 位 置 。 

对 于 许多 接口 来 说 ， 系 统 调用 都 被 视 为 正确 的 解决 之 道 。 但 Linux 系统 尽量 避免 每 出 现 一 种 
新 的 抽象 就 简单 的 加 入 一 个 新 的 系统 调用 。 这 使 得 它 的 系统 调用 接口 简洁 得 令 人 叹为观止 ， 也 就 
避免 了 许多 后 悔 和 反对 意见 (系统 调用 再 也 不 被 使 用 或 支持 )。 新 系统 调用 增添 频率 很 低 也 反映 
出 Linux 是 一 个 相对 较为 稳定 并 且 功 能 已 经 较为 完善 的 操作 系统 。 


5.7 小 结 


在 本 章 ， 我 们 描述 了 系统 调用 到 底 是 什么 ， 它 们 与 库 函 数 和 应 用 程序 接口 (API) 有 怎样 的 
关系 。 然 后 ， 我 们 考察 了 Linux 内 核 如 何 实现 系统 调用 ， 以 及 执行 系统 调用 的 连锁 反应 ; 陷入 内 
核 ， 传 递 系 统 调用 号 和 参数 ， 执 行 正确 的 系统 调用 函数 ， 并 把 返回 值 带 回 用 户 空间 。 

然后 ， 我 们 讨论 了 如 何 增加 系统 调用 ， 并 提供 了 从 用 户 空间 调用 系统 调用 的 简单 例子 。 整 个 
过 程 相 当 容 易 ! 增加 一 个 新 的 系统 调用 没有 什么 难 移 ， 这 一 过 程 也 就 是 系统 调用 的 实现 过 程 。 本 
书 的 其 余部 分 讨论 了 编写 规范 的 、 最 优化 的 、 安 全 的 系统 调用 所 遵循 的 概念 和 内 核 接口 规范 。 

最 后 ， 我 们 通过 讨论 实现 系统 调用 的 优 缺 点 以 及 列举 其 替代 方案 的 形式 对 全 章 内 容 进 行 了 
总 结 


:wcHo 


第 6) 章 
内 核 数 据 结构 


本 章 将 介绍 几 种 Linux 内 核 常用 的 内 建 数据 结构 。 和 其 他 很 多 大 型 项 目 一 样 ，Linux 内 核 
实现 了 这 些 通用 数据 结构 ， 而 且 提 倡 大 家 在 开发 时 重用 。 内 核 开发 者 应 该 尽 可 能 地 使 用 这 些 数 
据 结 构 ， 而 不 要 搞 自 作 主 张 的 山寨 方法 。 在 下 面 的 内 容 中 ， 我 们 讲述 这 些 通用 数据 结构 中 最 有 
用 的 几 个 ; 

* 链表 

。 队 列 

"映射 

。 二 又 树 

本 章 最 后 还 要 讨论 算法 复杂 度 ， 以 及 何 种 规模 的 算法 或 数据 结构 可 以 相对 容易 地 支持 更 大 的 
输入 集合 。 


6.1 链表 


链表 是 Linux 内 核 中 最 简单 、 最 普通 的 数据 结构 。 链 表 是 一 种 存放 和 操作 可 变数 量 元 素 〈 当 
称 为 节点 ) 的 数据 结构 。 链 表 和 静态 数组 的 不 同 之 处 在 于 ， 它 所 包含 的 元 素 都 是 动态 创建 并 插入 
链表 的 ， 在 编译 时 不 必 知道 具体 需要 创建 多 少 个 元 素 。 另 外 也 因为 链表 中 每 个 元 素 的 创建 时 间 各 
不 相同 ， 所 以 它们 在 内 存 中 无 须 占用 连续 内 存 区 。 正 是 因为 元 素 不 连续 地 存放 ， 所 以 各 元 素 需 要 
通过 某 种 方式 被 连接 在 一 起 。 于 是 每 个 元 素 都 包含 一 个 指向 下 一 个 元 素 的 指针 ， 当 有 元 素 加 入 链 
表 或 从 链表 中 删除 元 素 时 ， 简 单调 整 指向 下 一 个 节点 的 指针 就 可 以 了 。 


6.1.1 单 向 链表 和 双向 链表 
可 以 用 一 种 最 简单 的 数据 结构 来 表示 这 样 一 个 链表 ; 


/* 一 个 链表 中 的 一 个 元 素 */ 
struct list element { 
void *data; /* 有 效 数据 */ 
struct list element *next; /* 指向 下 一 个 元 素 的 指针 */ 


}; 
图 6-1 描述 一 个 链表 结构 体 。 
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图 6-1 一 个 简单 链表 
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在 有 些 链 表 中 ， 每 个 元 素 还 包含 一 个 指向 前 一 个 元 素 的 指针 ， 因 为 它们 可 以 同时 向 前 和 向 后 
相互 连接 ， 所 以 这 种 链表 被 称 作 双 向 链表 。 而 类 似 于 图 6-1 所 示 的 那 种 只 能 向 后 连接 的 链表 被 称 
作 单 向 链表 。 

表示 双向 链表 的 一 种 数据 结构 如 下 : 

/* 一 个 链表 中 的 一 个 元 素 */ 

struct list element { 

void *data; /* 有 效 数据 */ 
struct list element *next; /* 指向 下 一 个 元 素 的 指针 */ 
| struct list element *prev; /* 指向 前 一 个 元 素 的 指针 */ 


图 6-2 描述 了 一 个 双向 链表 。 
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图 6-2 一 个 双向 链表 


6.1.2 ”环形 链表 


通常 情况 下 ， 因 为 链表 中 最 后 一 个 元 素 不 再 有 下 一 个 元 素 ， 所 以 将 链表 尾 元 素 中 的 向 后 指针 
设置 为 NULL， 以 此 表明 它 是 链表 中 的 最 后 一 个 元 素 。 但 在 有 些 链 表 中 ， 末 尾 元 素 并 不 指向 特殊 
值 ， 相 反 ， 它 指 回 链表 的 首 元 素 。 这 种 链表 因为 首尾 相连 ， 所 以 被 称 为 是 环形 链表 。 环 形 链 表 也 
存在 双向 链表 和 单 向 链表 两 种 形式 。 在 环形 双向 链表 中 ， 首 节点 的 向 前 指针 指向 尾 节点 。 图 6-3 
和 图 6-4 分 别 表示 单 向 和 环形 双向 链表 。 
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图 6-3 环形 单 向 链表 
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图 6-4 ”环形 双向 链表 
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因为 环形 双向 链表 提供 了 最 大 的 灵活 性 ， 所 以 Linux 内 核 的 标准 链表 就 是 采用 环形 双向 链表 
形式 实现 的 。 


6.1.3 ” 沿 链 表 移 动 


沿 链表 移动 只 能 是 线性 移动 。 先 访问 某 个 元 素 ， 然 后 沿 该 元 素 的 向 后 指针 访问 下 一 个 元 素 ， 
不 断 重复 这 个 过 程 ， 就 可 以 沿 链表 向 后 移动 了 。 这 是 一 种 最 简单 的 沿 链表 移动 方法 ， 也 是 最 适合 
访问 链表 的 方法 。 如 果 需 要 随机 访问 数据 ， 一 般 不 使 用 链表 。 使 用 链表 存放 数据 的 理想 情况 是 ， 
需要 遍历 所 有 数据 或 需要 动态 加 入 和 删除 数据 时 。 

有 时 ， 首 元 素 会 用 一 个 特殊 指针 表示 一 一 该 指针 称 为 头 指针 ， 利 用 头 指针 可 方便 、 快 速 地 找 
到 链表 的 “起 始 端 ”。 在 非 环形 链表 里 ， 向 后 指针 指向 NULL 的 元 素 是 尾 元 素 ， 而 在 环形 链表 里 
向 后 指针 指向 头 元 素 的 元 素 是 尾 元 素 。 遍 历 一 个 链表 需要 线性 地 访问 从 第 一 个 元 素 到 最 后 一 个 元 
素 之 间 的 所 有 元 素 。 对 于 双向 链表 来 说 ， 也 可 以 反 向 遍历 链表 ， 可 以 从 最 后 一 个 元 素 线性 访问 到 
第 一 个 元 素 。 当 然 还 可 以 从 链表 中 的 指定 元 素 开始 向 前 和 向 后 访问 数 个 元 素 ， 并 不 一 定 要 访问 整 
个 链表 。 


6.1.4 Linux 内 核 中 的 实现 


相 比 普遍 的 链表 实现 方式 〈 包 括 前 面 章节 描述 的 通用 方法 )，Linux 内 核 的 实现 可 以 说 独 树 
一 帜 。 回 忆 早 先 提 到 的 数据 (或 者 一 组 数据 ， 比 如 一 个 stmuct) 通过 在 内 部 添加 一 个 指向 数据 的 
next (或 者 previous) 节点 指针 ， 才 能 串联 在 链表 中 。 比 如 ， 假 定 我 们 有 一 个 fox 数据 结构 来 描 
述 犬 科 动物 中 的 一 员 。 


struct fox { 





unsigned long tail length; /* 尾巴 长 度 ， 以 厘米 为 单位 */ 
unsigned long weight; /* 重量 ， 以 千克 为 单位 */ 
bool is fantastic; /* 这 上 只 狐狸 奇妙 吗 ? */ 


}; 
存储 这 个 结构 到 链表 里 的 通常 方法 是 在 数据 结构 中 嵌入 一 个 链表 指针 ， 比 如 : 


struct fox { 


unsigned long tail length; /* 尾巴 长 度 ， 以 厘米 为 单位 */ 


unsigned long weight; . /* 重量 ， 以 千克 为 单位 */ 
bool is fantastic; /* 这 只 狐狸 奇妙 吗 ? */ 
struct fox *next; /* 指向 下 一 个 狐狸 */ 
struct fox *prev; /* 指向 前 一 个 狐狸 */ 


}; 

Linux 内 核 方式 与 众 不 同 ， 它 不 是 将 数据 结构 塞 人 链表 ， 而 是 将 链表 节点 塞 人 数据 结构 ! 

1. 链表 数据 结构 

在 过 去 ， 内 核 中 有 许多 链表 的 实现 ， 该 选 一 个 既 简 单 、 又 高 效 的 链表 来 统一 它们 了 。 在 2.1 
内 核 开 发 系列 中 ， 首 次 引入 了 官方 内 核 链 表 实 现 。 从 此 内 核 中 的 所 有 链表 现在 都 使 用 官方 的 链表 
实现 了 ,， 千 万 不 要 再 自己 造 轮子 啦 ! 

链表 代码 在 头 文件 <linux/list.h> 中 声明 ， 其 数据 结构 很 简单 : 
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struct list head { 
struct list head *next 
struct list head *prev; 
}; 
next 指针 指向 下 一 个 链表 节点 ，prev 指针 指向 前 一 个 。 然 而 ， 似 乎 这 里 还 看 不 出 它们 有 多 大 
的 作用 。 到 底 什么 才 是 链表 存储 的 具体 内 容 呢 ? 其 实 关键 在 于 理解 list_head 结构 是 如 何 使 用 的 。 


struct fox { 


unsigned long tail length; /* 尾巴 长 度 ， 以 厘米 为 单位 */， 


unsigned long weight; /* 重量 ， 以 千克 为 单位 */ 
bool is_fantastic; /* 这 只 狐狸 奇妙 吗 ? */ 
struct list head list; /* 所 有 fox 结构 体形 成 链表 */ 


}; 


上 述 结构 中 ，fox 中 的 list next 指 向 下 一 个 元 素 ，list prev 指向 前 一 个 元 素 。 现 在 链表 已 经 
能 用 了 ， 但 是 显然 还 不 够 方便 。 因 此 内 核 又 提供 了 一 组 链表 操作 例 程 。 比 如 list_add0 方法 加 入 
一 个 新 节点 到 链表 中 。 但 是 ， 这 些 方法 都 有 一 个 统一 的 特点 : 它们 只 接受 list_head 结构 作为 参 
数 。 使 用 宏 container_of 我 们 可 以 很 方便 地 从 链表 指针 找到 父 结构 中 包含 的 任何 变量 。 这 是 因 
为 在 C 语言 中 ， 一 个 给 定 结构 中 的 变量 偏 移 在 编译 时 地 址 就 被 ABI 固定 下 来 了 。 

#define container of (ptr，type，member) {{ \ 


const typeof( ({(type *)0)->member ) *_mptr = (ptr); \ 
(type *) ( (char *) mptr - offsetof (type,member) );}) 


使 用 container_of0 宏 ， 我 们 定义 一 个 简单 的 函数 便 可 返回 包含 list_head 的 父 类 型 结构 体 : 


#define list entry{ptr, type, member) \ 
container of (ptr, type, member)} 


依靠 list_entry0 方法 ， 内 核 提 供 了 创建 、 操 作 以 及 其 他 链表 管理 的 各 种 例 程 一 一 所 有 这 些 
方法 都 不 需要 知道 list_head 所 嵌入 对 象 的 数据 结构 。 

2. 定义 一 个 链表 

正如 看 到 的 : list_ head 本 身 其 实 并 没有 意义 一 一 它 需 要 被 娆 入 到 你 自己 的 数据 结构 中 才能 生效 : 


struct fox { 


unsigned long tail_length; ”/* 尾巴 长 度 ， 以 厘米 为 单位 */ 


unsigned long weight; /* 重量 ， 以 千克 为 单位 */ 
bool is_fantastic; /* 这 只 狐狸 奇妙 吗 ? */ 
struct list head list; /* 所 有 fox 结构 体形 成 链表 */ 


}; 


链表 需要 在 使 用 前 初始 化 。 因 为 多 数 元 素 都 是 动态 创建 的 〈 也 许 这 就 是 需要 链表 的 原因 )， 
因此 最 常见 的 方式 是 在 运行 时 初始 化 链表 。 


struct fox *red fox; 

red fox = kmalloc (sizeof (*red fox), GFP_ KERNEL); 
red fox->tail length = 40; 

red fox->weight = 6; 

red fox->is fantastic = false; 

INIT LIST HEAD (gred fox->list); 
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如 果 一 个 结构 在 编译 期 静态 创建 ， 而 你 需要 在 其 中 给 出 一 个 链表 的 直接 引用 ， 下 面 是 最 简 方 式 : 


struct fox red fox = { 
.tail_ length = 40, 
.weight = 6， 
list = LIST HEAD INIT(red fox.list), 

}; 

3. 链表 头 

前 面 我 们 展示 了 如 何 把 一 个 现 有 的 数据 结构 〈 这 里 是 我 们 的 fox 结构 体 ) 改造 成 链表 。 

简单 修改 上 述 代 码 ， 我 们 的 结构 便 可 以 被 内 核 链 表 例 程 管理 。 但 是 在 可 以 使 用 这 些 例 程 前 ， 
需要 一 个 标准 的 索引 指针 指向 整个 链表 ， 即 链表 的 头 指 针 。 

内 核 链表 实现 中 最 杰出 的 特性 就 是 : 我 们 的 fox 节点 都 是 无 差别 的 一 一 每 一 个 都 包含 一 个 
list_head 指针 ， 于 是 我 们 可 以 从 任何 一 个 节点 起 遍历 链表 , 直到 我 们 看 到 所 有 节点 。 这 种 方式 确 
实 很 优美 ， 不 过 有 时 确实 也 需要 一 个 特殊 指针 索引 到 整个 链表 ， 而 不 从 一 个 链表 节点 触发 。 有 趣 
的 是 ， 这 个 特殊 的 索引 节点 事实 上 也 就 是 一 个 常规 的 list_ head : 


static LIST HEAD (fox list); 


该 函数 定义 并 初始 化 了 一 个 名 为 fox_list 的 链表 例 程 ， 这 些 例 程 中 的 大 多 数 都 只 接受 一 个 或 
者 两 个 参数 : 头 节点 或 者 头 节点 加 上 一 个 特殊 链表 节点 。 下 面 我 们 就 具体 看 看 这 些 操作 例 程 。 


6.1.5 ”操作 链表 


内 核 提供 了 一 组 函数 来 操作 链表 ， 这 些 函 数 都 要 使 用 一 个 或 多 个 list_head 结构 体 指针 作 参 
数 。 因 为 函数 都 是 用 C 语言 以 内 联 函 数 形式 实现 的 ， 所 以 它们 的 原型 在 文件 <linuwlisth> 中 。 

有 趣 的 是 ， 所 有 这 些 函 数 的 复杂 度 都 为 0(1) SS。 这 意味 着 ， 无 论 这 些 函 数 操作 的 链表 大 小 
如 何 ， 无 论 它们 得 到 的 参数 如 何 ， 它 们 都 在 恒定 时 间 内 完成 。 比 如 ， 不 管 是 对 于 包含 3 个 元 素 的 
链表 还 是 对 于 包含 3000 个 元 素 的 链表 ， 从 链表 中 删除 一 项 或 加 入 一 项 花费 的 时 间 都 是 相同 的 。 
这 点 可 能 没什么 让 人 惊奇 的 ， 但 你 最 好 还 是 搞 清楚 其 中 的 原因 。 

1. 向 链表 中 增加 一 个 节点 

给 链表 增加 一 个 节点 : 


list add(struct list head *new, struct list head *head) 

该 函数 向 指定 链表 的 head 节点 后 插入 new 市 点 。 因 为 链表 是 循环 的 ， 而 且 通 常 没有 首尾 节 
点 的 概念 ， 所 以 你 可 以 把 任何 一 个 节点 当成 head。 如 果 把 “最 后 ”一 个 节点 当做 head 的 话 ， 那 
么 该 国 数 可 以 用 来 实现 一 个 栈 。 

回 到 我 们 的 例子 ， 假 定 我 们 创建 一 个 新 的 struct fox， 并 把 它 加 入 fox_list， 那 么 我 们 这 样 做 : 


list add(gf->list, gfox list); 


日 请 看 本 章 6.6 节 ， 其 中 讨论 了 o(D 算法 。 
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把 节点 增加 到 链表 尾 : 


list add taill(struct list head *new, struct List head *head) 

该 函数 向 指定 链表 的 head 节点 前 插入 new 节点 。 和 list_add() 函数 类 似 ， 因 为 链表 是 环形 
的 ， 所 以 可 以 把 任何 一 个 节点 当做 head。 如 果 把 “第 一 个 ”元 素 当做 head 的 话 ， 那 么 该 函数 可 
以 用 来 实现 一 个 队列 。 

2. 从 链表 中 删除 一 个 节点 

在 键 表 中 增加 一 个 节点 后 ， 从 中 删除 一 个 结 点 是 另 一 个 最 重要 的 操作 。 从 链表 中 删除 一 个 结 
点 ， 调 用 list_del0 : 


list dell(struct list head *entry) 
该 函数 从 链表 中 删除 entry 元 素 。 注 意 ， 该 操作 并 不 会 释放 entry 或 释放 包含 entry 的 数据 结 
构 体 所 占用 的 内 存 ; 该 函数 仅仅 是 将 entry 元 素 从 链表 中 移 走 ， 所 以 该 函数 被 调用 后 ， 通常 还 需 
要 再 撤销 包含 entry 的 数据 结构 体 和 其 中 的 entry 项 。 
例如 ， 为 了 删除 for 节点 ， 我 们 回 到 前 面 增加 节点 的 fox_list : 
list del (gf->list) 
注意 ， 该 函数 并 没有 接受 fox_list 作为 输入 参数 。 它 只 是 接受 一 个 特定 的 节点 ， 并 修改 其 前 
后 节点 的 指针 ， 这 样 给 定 的 节点 就 从 链表 中 删除 。 代 码 的 实现 颇具 有 启发 性 : 
static inline void _ list dell(struct list head *prev, struct list _ head *next) 
next->prev = prev; 
prev->next = next; 


} 


static inline void list dell(struct list head *entry) 


{ 
} 
从 链表 中 删除 一 个 节点 并 对 其 重新 初始 化 : 


list del init(): 


_list dellentry->prev, entry->next); 


list del init(struct list head *entry) 

该 函数 除了 还 需要 再 次 初始 化 entry 以 外 ， 其 他 和 list_del0 函数 类 似 。 这 样 做 是 因为 : 虽然 
链表 不 再 需要 entry 项 ， 但 是 还 可 以 再 次 使 用 包含 entry 的 数据 结构 体 。 

3. 移动 和 合并 链表 节点 

把 节点 从 一 个 链表 移 到 另 一 个 链表 : 

list move(struct list head *list, struct list head *head) 


该 函数 从 一 个 链表 中 移 除 list 项 ， 然 后 将 其 加 入 到 另 一 链表 的 head 节点 后 面 。 
把 节点 从 一 个 链表 移 到 另 一 个 链表 的 末尾 : 
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list move tail(struct list head *]list, struct list head *head) 


该 函数 和 list_ move0 函数 一 样 ， 唯 一 的 不 同 是 将 list 项 插入 到 head 项 前 。 
检查 链表 是 否 为 空 : 


list emptyl(struct 1ist_head *head) 


如 果 指 定 的 链表 为 空 ， 该 函数 返回 非 0 值 ; 否则 返回 0。 
把 两 个 未 连接 的 链表 合并 在 一 起 : 


list splice(struct list head *list,struct list head *head) 


该 函数 合并 两 个 链表 ， 它 将 list 指向 的 链表 插入 到 指定 链表 的 head 元 素 后 面 。 
把 两 个 未 连接 的 链表 合并 在 一 起 ， 并 重新 初始 化 原来 的 链表 : 


list splice init(struct list head *]list,struct list head *head) 
该 函数 和 list_spliceQ 函数 一 样 ， 唯 一 的 不 同 是 由 list 指向 的 链表 要 被 重新 初始 化 。 


”节约 两 次 提 领 (dereference ) 

， ”如果 你 碰巧 已 经 得 到 了 next 和 prev 指针 ， 你 可 以 直接 调用 内 部 链表 函数 ， 从 而 省 下 一 
“点 时 间 (其 实 就 是 提 领 指针 的 时 间 )。 前 面 讨论 的 所 有 函数 其 实 没 有 做 什么 其 他 特别 的 操作 ， 
“ 它 仅仅 是 找到 next 和 prev 指针 ， 再 去 调用 内 部 函数 而 已 。 内 部 函数 和 它们 的 外 部 包装 函数 
。 同名， 仅仅 在 前 面 加 了 两 条 下 划 线 。 比 如 ， 可 以 调用 list_del(prev, next) 函数 代替 调用 list_ 
”del(list) 函数 。 但 这 只 有 在 向 前 和 向 后 指针 确实 已 经 被 提 领 过 的 情况 下 才 有 意义 。 否 则 ， 你 只 
， 是 在 画蛇添足 。 请 看 文件 <linux/list.h> 中 具体 的 接口 。 


6.1.6 遍历 链表 


现在 ， 你 已 经 知道 了 如 何在 内 核 中 声明 、 初 始 化 和 操作 一 个 链表 。 这 很 了 不 起 ， 但 如 果 无 法 
访问 自己 的 数据 ， 这 些 没有 任何 意义 。 链 表 仅 仅 是 个 能 够 包含 重要 数据 的 容器 ; 我 们 必须 利用 链 
表 移 动 并 访问 包含 我 们 数据 的 结构 体 。 幸 好 ， 内 核 为 我 们 提供 了 一 组 非常 棒 的 接口 ， 可 以 用 来 遍 
历 链表 和 3 引用 链表 中 的 数据 结构 体 。 


注意 ”和 链表 操作 未 数 不 同 ， 遍 历 链 表 的 复杂 度 为 O(n)，n 是 链表 所 包含 的 元 素数 目 。 


1. 基本 方法 

遍历 链表 最 简单 的 方法 是 使 用 list_for_each0 宏 ， 该 宏 使 用 两 个 list_head 类 型 的 参数 ， 第 一 
个 参数 用 来 指向 当前 项 ， 这 是 一 个 你 必须 要 提供 的 临时 变量 ， 第 二 个 参数 是 需要 遍历 的 链表 的 以 
头 节点 形式 存在 的 list_head 〈 见 前 面 的 “链表 头 ”部 分 )。 每 次 遍历 中 ， 第 一 个 参数 在 链表 中 不 
断 移动 指向 下 一 个 元 素 ， 直 到 链表 中 的 所 有 元 素 都 被 访问 为 止 。 用 法 如 下 : 


struct :list head *p; 
list for each(p, list) { 

/*p 指向 链表 中 的 元 素 */ 
} 
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好 了 ， 实 话 实说 , 其 实 一 个 指向 链表 结构 的 指针 通常 是 无 用 的 ; 我 们 所 需要 的 是 一 个 指向 包 
含 list_head 的 结构 体 的 指针 。 比 如 前 面 fox 结构 体 的 例子 ， 我 们 需要 的 是 指向 每 个 fox 的 指针 ， 
而 不 需要 指向 结构 体 中 list 成 员 的 指针 。 我 们 可 以 使 用 前 面 讨论 的 list_entry() 宏 ， 来 获得 包含 给 
定 list_head 的 数据 结构 。 比 如 : 


struct list head *p; 
struct fox *f,; 


list for each(p, &fox list) { 
/* 上 points to the structure in which the list is embedded */ 
f = list entry(p, struct fox, list); 
} 
2. 可 用 的 方法 
前 面 的 方法 虽然 确实 展示 了 list_head 节点 的 功效 ， 但 并 不 优美 ， 而 且 也 不 够 灵活 。 所 以 多 
数 内 核 代码 采用 list_for_each_entry0 宏 遍 历 链表 。 该 宏 内 部 也 使 用 list_entry0 宏 ， 但 简化 了 遍历 
过 程 : 


list_for each entry(pos, head, member) 


这 里 pos 是 一 个 指向 包含 list_ head 节点 对 象 的 指针 ， 可 将 它 看 做 是 list_entry 宏 的 返回 值 。 
head 是 一 个 指向 头 节点 的 指针 ， 即 遍历 开始 位 置 一 一 在 我 们 前 面 例 子 中 ，fox_list.member 是 pos 
中 list_head 结构 的 变量 名 。 这 听 起 来 令 人 迷惑 ， 但 是 简单 实用 。 下 面 的 代码 片断 展示 了 如 何 重 
写 前 面 的 list_for_each()， 来 遍历 所 有 fox 节点 : 


struct fox *f; 


list for each entry{(f, &fox list, list) { 
/* on each iteration, ‘f’ points to the next fox structure ... */ 


} 
现在 看 看 实际 例子 吧 。 它 来 自 motify 一 一 内 核 文 件 系统 的 更 新 通知 机 制 : 


static struct inotify watch *inode find handle(struct inode *inode, 
struct inotify handle *ih) 


{ 


struct inotify watch *watch; 
list for each entry(watch, &inode->inotify watches, i list) { 


if (watch->ih == ih) 
return watch; 


return NULL; 


} 
该 函数 遍历 了 inode->inotify_watches 链表 中 的 所 有 项 ， 每 个 项 的 类 型 都 是 struct inotify_ 
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watch，list_head 在 结构 中 被 命名 为 ilist。 循环 中 的 每 一 个 遍历 ，watch 都 指向 链表 的 新 节点 。 
该 函数 的 目的 在 于 : 在 inode 结构 串联 起 来 的 inotify_watches 链表 中 ， 搜 寻 其 inotify_handle 与 
所 提供 的 句柄 相 匹 配 的 inotify_watch 项 。 

3. 反 向 遍历 链表 

宏 list_for each_entry_reverse() 的 工作 和 list _for_each_entry0 类 似 ， 不 同 点 在 于 它 是 反 向 遍 
历 链表 的 。 也 就 是 说 ， 不 再 是 沿 着 next 指针 向 前 遍历 ， 而 是 沿 着 prev 指针 向 后 遍历 。 其 用 法 和 
list_for each_entry() 相同 : 


list for each entry reversel(pos, head, member) 


很 多 原因 会 需要 反 向 遍历 链表 。 其 中 一 个 是 性 能 原因 一 一 如 果 你 知道 你 要 寻找 的 节点 最 可 能 
在 你 搜索 的 起 始点 的 前 面 ， 那 么 反 向 搜索 岂 不 更 快 。 第 二 个 原因 是 如 果 顺 序 很 重要 ， 比 如 ， 如 果 
你 使 用 链表 实现 堆栈 ， 那 么 你 需要 从 尾部 向 前 遍历 才能 达到 先进 / 先 出 〈LIFO) 原则 。 如 果 你 没 
有 确切 的 反 向 遍历 的 原因 ， 就 老实 点 ， 用 list_for_each_entry0 宏 吧 。 

4. 遍历 的 同时 删除 

标准 的 链表 遍历 方法 在 你 遍历 链表 的 同时 要 想 删 除 节 点 时 是 不 行 的 。 因 为 标准 的 链表 方法 建 
立 在 你 的 操作 不 会 改变 链表 项 这 一 假设 上 ， 所 以 如 果 当 前 项 在 遍历 循环 中 被 删除 ， 那 么 接 下 来 的 
遍历 就 无 法 获得 next( 或 prev) 指针 了 。 这 其 实 是 循环 处 理 中 的 一 个 常见 范式 ， 开 发 人 员 通 过 在 
潜在 的 删除 操作 之 前 存储 next( 或 者 previous) 指针 到 一 个 临时 变量 中 ， 以 便 能 执行 删除 操作 。 好 
在 Linux 内 核 提 供 了 例 程 处 理 这 种 情况 : 


list for each entry_ safe(pos, next, head, member) 


你 可 以 按照 list_for_each_entry0 宏 的 方式 使 用 上 述 例 程 ， 只 是 需要 提供 next 指针 ，next 指 
针 和 pos 是 同样 的 类 型 。list_for_each_entry_safe() 启用 next 指针 来 将 下 一 项 存 进 表 中 ， 以 使 得 能 
安全 删除 当前 项 。 我 们 再 次 看 看 inotify 的 例子 : 





void inotify inode is deadl(struct inode *inode} 


{ 


struct inotify watch *watch, *next; 


mutex lock{(&inode->inotify mutex); 
list for each entry safe(watch, next, &inode->inotify watches, i list) { 
struct inotify handle *ih = watch->ih; 
mutex lock (&ih->mutex); 
inotify remove watch locked(ih, watch); /* deletes watch */ 
‘mutex unlock (gih->mutex); 
} 
mutex unlock (&inode->inotify mutex); 


} 


该 函数 遍历 并 删除 inotify_watches 链表 中 的 所 有 项 。 如 果 使 用 了 标准 的 list for_each_ 
entry(0， 和 那么 上 述 代码 会 造成 “使 用 一 在 一 释放 后 ”的 错误 ， 因 为 在 移 向 链表 中 下 一 项 时 ， 需 要 
访问 watch， 但 这 时 它 已 经 被 撤销 。 
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如 果 你 需要 在 反 向 遍历 链表 的 同时 删除 它 ， 那 么 内 核 提供 了 list_for_each_entry_safe_reverseO 
宏 帮 你 完成 此 任务 : 


list for each entry_safe_ reverse{pos, n, head, member)} 
上 述 函 数 的 用 法 同 list_for_each entry_safe(。 


你 仍然 需要 锁定 ! 

list_for_each_entry( 的 安全 版 本 只 能 保护 你 在 循环 体 中 从 链表 中 删除 数据 。 如 果 这 时 有 
可 能 从 其 他 地 方 并 发 进行 删除 ， 或 者 有 任何 其 他 并 发 的 链表 操作 ， 你 就 需要 锁定 链表 。 

请 见 第 9 章 和 第 10 章 中 对 同步 和 锁 的 讨论 。 


5. 其 他 链表 方法 
Linux 提供 了 很 多 链表 操作 方法 一 一 几乎 是 你 所 能 想到 的 所 有 访问 和 操作 链表 方法 ， 所 有 这 
些 方法 都 可 在 头 文件 <linux/list.h> 中 找到 。 


6.2 队列 


任何 操作 系统 内 核 都 少不了 一 种 编程 模型 : 生产 者 和 消费 者 。 在 该 模式 中 ， 生 产 者 创造 数据 
《比如 说 需要 读 取 的 错误 信息 或 者 需要 处 理 的 网 络 包 )， 而 消费 者 则 反 过 来 ， 读 取消 息 和 处 理 包 ， 
或 者 以 其 他 方式 消费 这 些 数 据 。 实 现 该 模型 的 最 简单 的 方式 无 非 是 使 用 队列 。 生 产 者 将 数据 推进 
队列 ， 然 后 消费 者 从 队列 中 摘 取 数 据 。 消 费 者 获取 数据 的 顺序 和 推 人 队列 的 顺序 一 致 。 也 就 是 
说 ， 第 一 个 进入 队列 的 数据 一 定 是 第 一 个 离开 队列 的 。 也 正 是 这 个 原因 ， 队 列 也 称 为 FIFO。 顾 
名 思 义 ，FIFO 就 是 先进 先 出 的 缩写 。 图 6-5 是 一 个 标准 队列 的 例子 。 


了 


图 6-5 队列 (FIFO) 


Linux 内 核 通 用 队列 实现 称 为 kfifo。 它 实现 在 文件 kernelVkfifo.c 中 ， 声 明 在 文件 <linux/ 
kfifo.h> 中 。 本 节 讨 论 的 是 自 2.6.33 以 后 刚 更 新 的 API， 使 用 方法 和 2.6.33 前 的 内 核 稍 有 不 同 ， 
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所 以 在 使 用 前 请 仔细 检查 文件 <linux/kfifo.h>。 
6.2.1 kfifo 


Linux 的 kfifo 和 多 数 其 他 队列 实现 类 似 ， 提 供 了 两 个 主要 操作 : enqueue (入 队列 ) 和 
dequeue (出 队列 )。kfifo 对 象 维护 了 两 个 偏 移 量 : 入 口 偏 移 和 出 口 偏 移 。 入 口 偏 移 是 指 下 一 次 入 
队列 时 的 位 置 ， 出 口 偏 移 是 指 下 一 次 出 队列 时 的 位 置 。 出 口 偏 移 总 是 小 于 等 于 入 口 偏 移 ， 否 则 无 
意义 ， 因 为 那样 说 明 要 出 队列 的 元 素 根本 还 没有 入 队列 。 

enqueue 操作 撕 贝 数据 到 队列 中 的 入 口 偏 移 位 置 。 当 上 述 动作 完成 后 ， 入 口 偏 移 随 之 加 上 推 
入 的 元 素数 目 。dequeue 操作 从 队列 中 出 口 偏 移 处 拷贝 数据 ， 当 上 述 动作 完成 后 ， 出 口 偏 移 随 之 
减 去 摘 取 的 元 素数 目 。 当 出 口 偏 移 等 于 入 口 偏 移 时 ， 说 明 队 列 空 了 : 在 新 数据 被 推 人 前 ， 不 可 再 
摘 取 任 何 数据 了 。 当 入 口 偏 移 等 于 队列 长 度 时 ， 说 明 在 队列 重 置 前 ， 不 可 再 有 新 数据 推 人 队列 。 


6.2.2 ”创建 队列 


使 用 kfifo 前 ， 首 先 必 须 对 它 进行 定义 和 初始 化 。 和 多 数 内 核对 象 一 样 ， 有 动态 或 者 静态 方 
法 供 你 选择 。 动 态 方法 更 为 普遍 : 


int kfifo_alloc(struct kfifo *fifo, unsigned int size，gfp t gfp mask); 


该 函数 创建 并 且 初 始 化 一 个 大 小 为 size 的 kfifo。 内 核 使 用 gfp_mask 标识 分 配 队 列 〈 我 们 在 
“第 12 章 会 详细 讨论 内 存 分 配 )。 如 果 成 功 kfifo_alloc0 返回 0 ; 错误 则 返回 一 个 负数 错误 码 。 下 
面 便 是 一 个 例子 : 


struct kfifo fifo; 
int ret; 


ret = kfifo alloc (gkifo, PAGE SIZE, GFP_ KERNEL); 
if (ret) 


return ret; 


/* "fifo" 现在 代表 一 个 大 小 为 PAGE_SIZE 的 队列 … */ 
你 要 想 自 己 分 配 缓冲 ， 可 以 调用 : 
voida kfifo init(struct kfifo *fifo, void *buffer, unsigned int size) 


该 函数 创建 并 初始 化 一 个 kfifo 对 象 ， 它 将 使 用 由 buffer 指向 的 size 字 节 大 小 的 内 存 。 对 于 
kfifo alloc() 和 kfifo_init?，size 必须 是 2 的 项 。 
静态 声明 kfifo 更 简单 ， 但 不 大 常用 : 


DECLARE KFIFO(name, size); 
INIT KFIFO (name ) ; 


上 述 方法 会 创建 一 个 名 称 为 name、 大 小 为 size 的 kfifo 对 象 。 和 前 面 一 样 , size 必须 是 2 的 告 。 
6.2.3 ” 推 入 队列 数据 
当 你 的 khfo 对 象 创建 和 初始 化 后 ， 推 人 数据 到 队列 需要 通过 kfifo_in0 方法 完成 : 


80 亲 6 间 


unsigned int kfifo in(struct kfifo *fifo, const void *from, unsigned int len); 


该 函数 把 from 指针 所 指 的 len 字 节 数据 拷贝 到 fifo 所 指 的 队列 中 ， 如 果 成 功 ， 则 返回 推 人 
数据 的 字 节 大 小 。 如 果 队 列 中 的 空闲 字 节 小 于 len， 则 该 函数 值 最 多 可 拷贝 队列 可 用 空间 那么 多 
的 数据 ， 这 样 的 话 ， 返 回 值 可 能 小 于 len， 甚 至 会 返回 0， 这 时 意味 着 没有 任何 数据 被 推 人 。 


6.2.4 ” 摘 取 队列 数据 
推 人 数据 使 用 函数 khfo_in0， 搞 取 数 据 则 需要 通过 函数 kfifo_out( 完成 : 


unsigned int kfifo_out (struct kfifo *fifo, void *to, unsigned :int len); 


该 函数 从 fifo 所 指向 的 队列 中 拷贝 出 长 度 为 len 字 节 的 数据 到 to 所 指 的 缓冲 中 。 如 果 成 功 ， 
该 函数 则 返回 拷贝 的 数据 长 度 。 如 果 队 列 中 数据 大 小 小 于 len , 则 该 函数 拷贝 出 的 数据 必然 小 于 
需要 的 数据 大 小 。 

当 数 据 被 摘 取 后 ， 数 据 就 不 再 存在 于 队列 之 中 。 这 是 队列 操作 的 常用 方式 。 不 过 如 果 仅 仅 想 
“ 偷 客 ”队列 中 的 数据 ， 而 不 真 想 删除 它 ， 你 可 以 使 用 kfhifo_out_peek0) 方法 : 


unsigned :int kfifo out peek(struct kfifo *fifo, void *to, unsigned int len, 
unsigned offset); 


该 函数 和 kfhifo_outO 类 似 ， 但 出 口 偏 移 不 增加 ， 而 且 摘 取 的 数据 仍然 可 被 下 次 kfifo_out 获 
得 。 参 数 offset 指向 队列 中 的 索引 位 置 ， 如 果 该 参数 为 0， 则 读 队 列 头 ， 这 和 kfifo_out0 无 异 。 


6.2.5 ”获取 队列 长 度 
若 想 获得 用 于 存储 kfifo 队列 的 空间 的 总 体 大 小 〈 以 字 节 为 单位 )， 可 调用 方法 khfo_ size0 : 


static inline unsigned int kfifo size(struct kfifo *fifo) ; 

另 一 个 内 核 命名 不 佳 的 例子 来 了 一 一 kfifo_len() 方法 返回 kfifo 队列 中 已 推 入 的 数据 大 小 : 

static inline unsigned int kfifo len(struct kfifo *fifo) ; 

如 果 想 得 到 kfifo 队列 中 还 有 多 少 可 用 空间 ， 则 要 调用 方法 : 

static inline unsigned int kfifo_avail(stzruct kfifco *fifo); 

最 后 两 个 方法 是 kfifo is_empty() 和 kfifo_is_full()。 如 果 给 定 的 kfifo 分别 是 空 或 者 满 ， 它 们 
返回 非 0 值 。 如 果 返 回 0， 则 相反 。 


static inline int kfifo is empty(struct kfifo *fifo); 
static inline int kfifo is fulll(struct kfifo *fifo); 


6.2.6 ” 重 置 和 撤销 队列 
如 果 重 置 kfifo， 意 味 着 抛弃 所 有 队列 中 的 内 容 ， 调 用 kfifo_resetO : 


static inline void kfifo reset (struct kfifo *fifo); 


撤销 一 个 使 用 kfifo_alloc() 分 配 的 队列 ， 调 用 khfo_free0 : 
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void kfifo free(struct kfifo *fifo); 


如 果 你 是 使 用 kfifo_init0 方法 创建 的 队列 ， 那 么 你 需要 负责 释放 相关 的 缓冲 。 具 体 方法 取决 
于 你 是 如 何 创建 它 的 。 去 看 看 第 12 章 关于 动态 分 配 和 释放 内 存 的 讨论 吧 。 


6.2.7 ”队列 使 用 举例 


使 用 上 述 接口 ， 我 们 看 一 个 kfifo 的 具体 用 例 。 假 定 我 们 创建 了 一 个 由 fifo 指向 的 8KB 大 小 
的 kfifo。 我 们 就 可 以 推 人 数据 到 队列 。 这 个 例子 中 ， 我 们 推 入 简单 的 整 型 数 。 在 你 自己 的 代码 
中 ， 可 以 推 入 更 复杂 的 任务 相关 数据 。 这 里 使 用 整数 ， 我 们 看 看 kfifo 如 何 工作 : 


unsigned int i; 


/* 将 [0,32) 压 和 人 到 名 为 'fifo' 的 kfifo 中 */ 
for (i = 0; i < 32; i++) 
kfifo in (fifo, &i; sizeof (i)); 


名 为 fifo 的 kfifo 现在 包含 了 0 到 31 的 整数 ， 我 们 查看 一 下 队列 的 第 一 个 元 素 是 不 是 0 : 


unsigned int val; 
int ret; 


ret = kfifo out peek (fifo, gval, sizeof (val), 0); 
if (ret != sizeof (val)) 

return -EINVAL; 
printk (KERN_INFO "suNn"，val); /* 应 该 输出 0 */ 


摘 取 并 打印 kfifo 中 的 所 有 元 素 ， 我 们 可 以 调用 kfifo_out0 : 


/* 当 队 列 中 还 有 数据 时 */ 

while (kfifo avail (fifo)) { 
unsigned int val; 
int ret,; 


/* ... read it, one integer at a time */ 
ret = kfifo out (fifo, &val, sizeof (val)); 
if (ret != sizeof (val)) 

return -EINVAL; 


printk (KERN_INFO "%u\n", val); 
} 
0 到 31 的 整数 将 一 一 按 序 打印 出 来 (如 果 需 要 逆序 打印 ， 即 从 31 到 0， 那 么 我 们 应 该 使 用 
堆栈 而 不 是 队列 )。 


6.3 映射 


一 个 映射 ， 也 常 称 为 关联 数组 ， 其 实 是 一 个 由 唯一 键 组 成 的 集合 ， 而 每 个 键 必然 关联 一 个 特 
定 的 值 。 这 种 键 到 值 的 关联 关系 称 为 映射 。 映 射 要 至 少 支 持 三 个 操作 : 
* Add (key, value) 


* Remove (key) 
* value = Lookup (key) 
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虽然 散 列表 是 一 种 映射 ， 但 并 非 所 有 的 映射 都 需要 通过 散 列表 实现 。 除 了 使 用 散 列表 外 ， 映 
射 也 可 以 通过 自 平 衡 二 又 搜索 树 存储 数据 。 虽 然 散 列表 能 提供 更 好 的 平均 的 渐 近 复杂 度 〈 请 看 本 
章 后 面 关 于 算法 复杂 度 的 讨论 )， 但 是 二 叉 搜 索 树 在 最 坏 情况 下 能 有 更 好 的 表现 〈 即 对 数 复杂 
性 相 比 线性 复杂 性 )。 二 又 搜 索 树 同 时 满足 顺序 保证 ， 这 将 给 用 户 的 按 序 遍 历 带 来 很 好 的 性 能 。 
二 又 搜索 树 的 最 后 一 个 优势 是 它 不 需要 散 列 函数 ， 需 要 的 键 类 型 只 要 可 以 定义 <= 操作 算 子 便 
可 以 。 

虽然 键 到 值 的 映射 属于 一 个 通用 说 法 ， 但 是 更 多 时 候 特 指使 用 二 又 树 而 非 散 列表 实现 的 关联 
数组 。 比 如 ，C++ 的 STL 容器 std::map 便 是 采用 自 平 衡 二 叉 搜 索 树 (或 者 类 似 的 数据 结构 〉 实 
现 的 ， 它 能 提供 按 序 遍历 的 能 

Linux 内 核 提 供 了 简单 、 有 效 的 映射 数据 结构 。 但 是 它 并 非 一 个 通用 的 映射 。 因 为 它 的 目标 
是 : 映射 一 个 唯一 的 标识 数 (UID) 到 一 个 指针 。 除 了 提供 三 个 标准 的 映射 操作 外 ，Linux 还 在 
add 操作 基础 上 实现 了 allocate 操作 。 这 个 allocate 操作 不 但 向 map 中 加 入 了 键 值 对 ， 而 且 还 可 
产生 UID。 

idr 数据 结构 用 于 映射 用 户 空间 的 UID， 比 如 将 inodify watch 的 描述 符 或 者 POSIX 的 定时 器 
ID 映射 到 内 核 中 相关 联 的 数据 结构 上 ， 如 inotify watch 或 者 k_itimer 结构 体 。 其 命名 仍然 沿 效 
了 内 核 中 有 些 含混 不 清 的 命名 体系 ， 这 个 映射 被 命名 为 idr。 


6.3.1 初始 化 一 个 idr 

建立 一 个 idr 很 简单 ， 首 先 你 需要 静态 定义 或 者 动态 分 配 一 个 idr 数据 结构 。 然 后 调用 idr_ 
init() : 

void idr init{(struct idr *idp) ; 


比如 : 


struct idr ida_huh; /* 静态 定义 idr 结构 */ 
idr_init (&id_huh) ; /* 初始 化 idr 结构 */ 


6.3.2 分 配 一 个 新 的 UID 


一 旦 建立 了 idr， 就 可 以 分 配 新 的 UID 了 ， 这 个 过 程 分 两 步 完 成 。 第 一 步 ， 告 诉 idr 你 需要 
分 配 新 的 UID， 人 允许 其 在 必要 时 调整 后 备 树 的 大 小 。 然 后 ， 第 二 步 才 是 真正 请 求 新 的 UID。 之 
所 以 需要 这 两 个 组 合 动 作 是 因为 要 允许 调整 初始 大 小 一 一 这 中 间 涉 及 在 无 锁 情况 下 分 配 内 存 的 场 
景 。 我 们 在 第 12 章 将 讨论 内 存 分 配 ， 在 第 9 章 和 第 10 章 讨论 加 锁 问 题 。 现 在 我 们 先 别管 如 何 处 
理 上 锁 问题 ， 重 点 看 看 如 何 使 用 idr。 

第 一 个 调整 后 备 树 大 小 的 方法 是 idr_pre_get0 : 


int idr pre get (struct idr *idp, gfp t gfp mask); 


该 函数 将 在 需要 时 进行 UID 的 分 配 工作 : 调整 由 idp 指向 的 idr 的 大 小 。 如 果真 的 需要 调整 
大 小 ， 则 内 存 分 配 例 程 使 用 gp 标识 : gfp_mask (gfp 标识 将 在 第 12 章 讨论 )， 你 不 需要 对 并 发 
访问 该 方法 进行 同步 保护 。 和 内 核 中 其 他 函数 的 做 法 相反 ，idr_pre_get0 成 功 时 返回 1, 失败 时 返 
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回 0 一 一 这 点 一 定 要 注意 。 
第 二 个 函数 ， 实 际 执行 获取 新 的 UID， 并 且 将 其 加 到 idr 的 方法 是 idr_get_new0 : 


int idr get newlstruct idr *idp, void *ptr, int *id); 


该 方法 使 用 idp 所 指向 的 idr 去 分 配 一 个 新 的 UID， 并 且 将 其 关联 到 指针 ptr 上。 成 功 时 ， 
该 方法 返回 0， 并且 将 新 的 UID 存 于 过。 错误 时 ， 返 回 非 0 的 错误 码 ， 错 误 码 是 -EAGAIN， 说 
明 你 需要 (再次) 调用 idr_pre_get0 ; 如 果 idr 已 满 ， 错 误 码 是 -ENOSPC。 

看 一 个 完整 例子 吧 : 


int id; 


do { 
if (lidr pre get(&idr huh, GFP_ KERNEL)) 
return -ENOSPC; 
ret = idr get_new(&idr huh, ptr, &id); 
} while (ret == -EAGAIN); 


如 果 成 功 ， 上 述 代码 片段 将 获得 一 个 新 的 UID， 它 被 存储 在 整 型 变量 id 中 ， 而 且 将 UD 映 
射 到 ptr 我 们 没有 在 代码 片段 中 定义 它 ) 
函数 idr_get_new_above0 使 得 调用 者 可 指定 一 个 最 小 的 UID 返回 值 : 


int idr get_new_above (Struct idr *idp, void *ptr, int starting id, int *id); 


该 函数 的 作用 和 idr_get_new0 相同 ， 除 了 它 确保 新 的 UID 大 于 或 等 于 starting_id 外 。 使 用 
这 个 变种 方法 允许 idr 的 使 用 者 确保 UID 不 会 被 重用 ， 允 许 其 值 不 但 在 当前 分 配 的 ID 中 唯一 ， 
而 且 还 保证 在 系统 的 整个 运行 期 间 唯一 。 下 面 的 代码 片段 和 前 例 中 的 类 似 ， 不 过 我 们 明确 要 求 增 
加 UID 的 值 : 


int id; 


do { 
if {!idr pre get (gidr huh, GFP_KERNEL)) 
return -ENOSPC; 
ret = idr get new above(&idr huh, ptr, next id, g&id); 
} while (ret == -FAGAIN); 


if (!ret) 


next id = id + 1; 


6.3.3 查找 UID 


当 我 们 在 一 个 idr 中 已 经 分 配 了 一 些 UID 时 ， 我 们 自然 就 需要 查找 它们 : 调用 者 要 给 出 
UID，idr 将 返回 对 应 的 指针 。 查 找 步 又 显然 要 比分 配 一 个 新 UID 要 来 的 简单 ， 仅 需 使 用 idr_ 
find( 方法 即 可 : 
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void *idr find (struct idr *idp, int id) ; 

该 函数 如 果 调 用 成 功 ， 则 返回 id 关联 的 指针 ; 如 果 错 误 ， 则 返回 空 指针 。 注 意 ， 如 果 你 使 
用 idr_get_ new0 或 者 idr_get_new_above0 将 空 指针 映射 给 UID， 那 么 该 函数 在 成 功 时 也 返回 
NULL。 这 样 你 就 无 法 区 分 是 成 功 还 是 失败 ， 所 以 ， 最 好 不 要 将 UID 映射 到 空 指针 上 。 

这 个 函数 的 使 用 比较 简单 : 

struct my_struct *ptr = idr find(g&idr huh, id); 


if (!ptr) 
return -EINVAL; /* 错误 */ 


6.3.4 删除 UID 
从 idr 中 删除 UID 使 用 方法 idr_remove() : 


void idr remove (Struct idGr *idp,int id); 


如 果 idr_ remove0 成 功 ， 则 将 id 关联 的 指针 一 起 从 映射 中 删除 。 遗 憾 的 是 ，idr_remove0 并 
没有 办 法 提示 任何 错误 〈 比 如 ， 如 果 记 不 在 idp 中 )。 


6.3.5 撤销 idr 
撤销 一 个 idr 的 操作 很 简单 ， 调 用 idr_destroy0 函数 即 可 : 


void idr destroy(struct idr *idp) ; 


如 果 该 方法 成 功 ， 则 只 释放 idr 中 未 使 用 的 内 存 。 它 并 不 释放 当前 分 配给 UID 使 用 的 任何 内 
存 。 通 常 ， 内 核 代码 不 会 撤销 idr， 除 非 关 闭 或 者 卸载 ， 而 且 只 有 在 没有 其 他 用 户 〈《 也 就 没有 更 
多 的 UID) 时 才能 删除 ， 但 是 你 可 以 调用 idr_remove_all( 方法 强制 删除 所 有 的 UID : 


void idr remove alll(struct idr *idp); 


你 应 该 首先 对 idp 指向 的 idr 调用 idr_remove_all)， 然 后 再 调用 idr_destroyO0， 这 样 就 能 使 
idr 占用 的 内 存 都 被 释放 。 


6.4 二 又 树 > 
树 结构 是 一 个 能 提供 分 层 的 树 型 数据 结构 的 特定 数据 结 


构 。 在 数学 意义 上 ， 树 是 一 个 无 环 的 、 连 接 的 有 向 图 ， 其 中 
任何 一 个 顶点 《在 树 里 叫 节 点 ) 具有 0 个 或 者 多 个 出 边 以 及 


0 个 或 者 1 个 人 边 。 一 个 二 叉 树 是 每 个 节点 最 多 只 有 两 个 出 (4) 
边 的 树 一 一 也 就 是 ， 一 个 树 ， 其 节点 具有 0 个 、1 个 或 者 2 个 
子 节点 。 请 见 图 6-6 所 示 的 简单 二 又 树 。 @) G) a 
6.4.1 二 叉 搜 索 树 Cs 
一 个 二 又 搜索 树 (通常 简称 为 BST)〉 是 一 个 节点 有 序 的 图 6-6 二 又 树 
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二 叉 树 ， 其 顺序 通常 遵循 下 列 法 则 : 

* 根 的 左 分 支 节点 值 都 小 于 根 节 点 值 。 

“ 右 分 支 节点 值 都 大 于 根 节 点 值 。 

“所 有 的 子 树 也 都 是 二 又 搜索 树 。 

因此 ， 一 个 二 又 搜索 树 所 有 节点 必然 都 有 序 ， 且 左 子 节点 小 于 其 父 节点 值 ， 而 右 子 节点 大 于 
其 父 节 点 值 的 二 叉 树 。 所 以 ， 在 树 中 搜索 一 个 给 定 值 或 者 按 序 遍 历 树 都 相当 快捷 〈 算 法 分 别 是 对 
数 和 线性 的 )。 见 图 6-7 给 出 的 简单 二 又 搜索 树 。 


6.4.2 ” 自 平衡 二 又 搜索 树 


一 个 节点 的 深度 是 指 从 其 根 节 点 起 ， 到 达 它 一 共 需 经 过 的 父 节点 数目 。 处 于 树 底层 的 节点 
〈 再 也 没有 子 节 点 ) 称 为 叶子 节点 。 一 个 树 的 高 度 是 指 树 中 的 处 于 最 底层 节点 的 深度 。 一 个 平衡 
二 叉 搜 索 树 是 一 个 所 有 叶子 节点 深度 差 不 超 过 1 的 二 又 搜索 树 〈 见 图 6-8)。 一 个 自 平衡 二 又 搜索 
树 是 指 其 操作 都 试图 维持 〈 半 平衡 的 二 又 搜索 树 。 


图 6-7 二 又 搜索 树 (BST) 图 6-8 平衡 二 又 搜索 树 


1. 红 黑 树 

红 黑 树 是 一 种 自 平衡 二 又 搜索 树 。Linux 主要 的 平衡 二 又 树 数据 结构 就 是 红 黑 树 。 红 黑 树 具 
有 特殊 的 着 色 属 性 ， 或 红色 或 黑色 。 红 黑 树 因 遵循 下 面 六 个 属性 ， 所 以 能 维持 半 平 衡 结构 : 

(1) 所 有 的 节点 要 么 着 红色 ,要么 着 黑色 。 

(2) 叶子 节点 都 是 黑色 。 

(3) 叶子 节点 不 包含 数据 。 

C4) 所 有 非 叶子 节点 都 有 两 个 子 节 点 。 

(5) 如 果 一 个 节点 是 红色 ， 则 它 的 子 节点 都 是 黑色 。 

《6) 在 一 个 节点 到 其 叶子 节点 的 路 径 中 ， 如 果 总 是 包含 同样 数目 的 黑色 节点 ， 则 该 路 径 相 
比 其 他 路 径 是 最 短 的 。 

上 述 条 件 ， 保 证 了 最 深 的 叶子 节点 的 深度 不 会 大 于 两 倍 的 最 浅 叶 子 节 点 的 深度 。 所 以 ， 红 类 
树 总 是 半 平 衡 的 。 为 什么 它 具 有 如 此 神奇 的 特点 呢 ? 首先 ， 第 五 个 属性 ， 一 个 红色 节点 不 能 是 其 
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他 红色 节点 的 子 节点 或 者 父 节点 。 而 第 六 个 属性 保证 了 ， 从 树 的 任何 节点 到 其 叶子 节点 的 路 径 都 
具有 相同 数目 的 黑色 节点 ， 树 里 的 最 长 路 径 则 是 红 黑 交替 节点 路 径 ， 所 以 最 短路 径 必 然 是 具有 相 
同 数量 黑色 节点 的 一 一 只 包含 黑色 节点 的 路 径 。 于 是 从 根 节点 到 叶子 节点 的 的 最 长 路 径 不 会 超过 
最 短路 径 的 两 倍 。 

如 果 插 入 和 删除 操作 可 以 遵循 上 述 六 个 要 求 ， 那 这 个 树 会 始终 保持 是 一 个 半 平 衡 树 。 看 起 来 
也 许 有 些 奇 怪 ， 为 什么 插入 和 删除 动作 都 需要 服从 这 些 特别 的 约束 ， 为 什么 不 能 用 一 些 简单 的 规 
则 去 维持 平衡 树 呢 ? 其 实 ， 实 践 证 明 这 些 规 则 遵循 起 来 还 是 相对 简单 〈 虽 然 实现 复杂 ) 的 。 而 且 
在 保证 半 平 衡 树 前 提 下 ， 这 些 插 入 和 删除 动作 并 不 会 增加 额外 负担 。 

至 于 如 何 让 插入 和 删除 动作 都 能 遵循 这 些 规则 ， 已 经 超出 了 本 书 范围 。 相 比 简单 的 规则 ， 实 
现 起 来 可 要 复杂 得 多 。 不 过 任何 好 点 的 大 学 数据 结构 教科 书 上 都 应 该 有 完整 的 讲述 。 

2. rbtree 

Linux 实现 的 红 黑 树 称 为 rtbtree。 其 定义 在 文件 lib/rbtree.c 中 ， 声 明 在 文件 <linux/rbtree.h> 
中 。 除 了 一 定 的 优化 外 ，Linux 的 rbtree 类 似 于 前 面 所 描述 的 经 典 红 黑 树 ， 即 保持 了 平衡 性 ， 所 
以 插入 效率 和 树 中 节点 数目 呈 对 数 关系 。 

rbtree 的 根 节点 由 数据 结构 rb_root 描述 。 创 建 一 个 红 黑 树 ， 我 们 要 分 配 一 个 新 的 rtb_root 结 
构 ， 并 且 需 要 初始 化 为 特殊 值 RB_ROOT : 


struct rb _root root = RB ROOT; 


树 里 的 其 他 节点 由 结构 tb_node 描述 。 给 定 一 个 tb_node， 我 们 可 以 通过 跟踪 同名 节点 指针 
来 找到 它 的 左右 子 节点 。 

rbtree 的 实现 并 没有 提供 搜索 和 插入 例 程 ， 这 些 例 程 希望 由 tbtree 的 用 户 自己 定义 。 这 是 因 
为 C 语言 不 大 容易 进行 泛 型 编程 ， 同 时 Linux 内 核 开 发 者 们 相信 和 最 有 效 的 搜索 和 插入 方法 需要 每 
个 用 户 自己 去 实现 。 你 可 以 使 用 tbtree 提供 的 辅助 函数 ， 但 你 自己 要 实现 比较 操作 算 子 。 

搜索 操作 和 插入 操作 最 好 的 范例 就 是 展示 一 个 实际 场景 : 我 们 先 来 看 搜索 ， 下 面 的 函数 实现 
了 在 页 高 速 缓存 中 搜索 一 个 文件 区 〔 由 一 个 i 节点 和 一 个 偏 移 量 共同 描述 )。 每 个 i 节点 都 有 自己 
的 tbtree， 以 关联 在 文件 中 的 页 偏 移 。 该 函数 将 搜索 给 定 i 节点 的 tbtree， 以 寻找 匹配 的 偏 移 值 : 


struct page * rb search page_cache (Struct inode *inode, 
uinsigned long offset) 


{ 


struct rb node *n = inode->i rb page cache.rb node; 


while (n) { 
struct page *page = rb entry(n, struct page, rb page cache)，; 
if (offset < page->offset) 
n= n->rb left; 
else if (offset > page->offset) 
n = n->rb right; 
else 
return page; 
} 


return NULL; 
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这 个 例子 中 ， 在 while 循环 中 遍历 了 整个 rbtree。offset 将 决定 是 向 左 或 是 向 右 遍 历 。 让 和 
else 条 件 实际 上 实现 了 rbtree 的 比较 方法 ， 从 而 确保 了 树 的 有 序 性 。 如 果 循 环 中 找到 了 一 个 匹配 
offset 的 节点 ， 则 搜索 完成 ， 并 返回 对 应 的 page 结构 。 如 果 循 环 查 找 了 全 树 也 没有 找到 一 个 匹配 
项 ， 说 明 在 树 中 不 存在 匹配 项 ， 则 函数 返回 NULL。 

插入 操作 要 相对 复杂 一 些 ， 因 为 必须 实现 搜索 和 插入 逻辑 。 下 面 并 非 一 个 了 不 起 的 函数 ， 但 
可 以 作为 你 实现 自己 的 插入 操作 的 一 个 指导 : 

struct page * rb insert page cache(struct inode *inode, 


unsigned long offset, 
struct rb node *node) 


struct rb node **p = &inode->i rb page cache.rb node; 
struct rb node *parent = NULL; 
struct page *page; 


while (*p) { 
parent = *p; 
page = rb entry(parent, struct page, rb page cache); 


if (offset < page->offset) 

p= &(*p)->rb left; 
else if {offset > page->offset) 

p = &(*p)->rb right; 
else 

return page; 


} 


rb_ link node (node, parent, p); 
rb insert color(node, &inode->i rb page cache); 


return NULL; 


} 


和 搜索 操作 一 样 ，while 循环 需要 遍历 整个 树 ， 也 是 根据 offset 选择 遍历 方向 。 但 是 和 搜索 
不 同 的 是 ， 该 函数 希望 找 不 到 匹配 的 offset， 因 为 它 想 要 找 的 是 新 offset 要 插入 的 叶子 节点 。 当 
插入 点 找到 后 ， 调 用 rb_link_node0 在 给 定位 置 插入 新 节点 。 接 着 调用 rb_insert_color0 方法 执 
行 复杂 的 再 平衡 动作 。 如 果 页 被 加 入 到 页 高 速 缓存 中 ， 则 返回 NULL。 如 果 页 已 经 在 高 速 缓存 中 
了 ， 则 返回 这 个 已 存在 的 页 结构 地 址 。 


6.5 ”数据 结构 以 及 选择 


我 们 已 经 详细 讨论 了 Linux 中 最 重要 的 四 种 数据 结构 : 链表 、 队 列 、 映 射 和 红 黑 树 。 在 本 节 
中 ， 我 们 将 教 你 如 何在 代码 中 具体 选择 使 用 哪 种 数据 结构 。 

如 果 你 对 数据 集合 的 主要 操作 是 遍历 数据 ， 就 使 用 链表 。 事 实 上 没有 数据 结构 可 以 提供 比 线 
性 算法 复杂 度 更 好 的 算法 遍历 元 素 ， 所 以 你 应 该 用 最 简单 的 数据 结构 完成 简单 工作 。 另 外 ， 当 性 
能 并 非 首要 考虑 因素 时 ， 或 者 当 你 需要 存储 相对 较 少 的 数据 项 时 ， 或 者 当 你 需要 和 内 核 中 其 他 使 
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用 链表 的 代码 交互 时 ， 也 该 优先 选择 链表 。 

如 果 你 的 代码 符合 生产 者 / 消费 者 模式 ， 则 使 用 队列 ， 特 别 是 如 果 你 想 〈 或 者 可 以 ) 要 一 个 
定 长 缓冲 。 队 列 会 使 得 添加 和 删除 项 的 工作 简单 有 效 。 同 时 队列 也 提供 了 先 人 先 出 〈FIFO) 语 
义 ， 而 这 也 正 是 生产 者 / 消费 者 用 例 的 普遍 需求 。 另 一 方面 ， 如 果 你 需要 存储 一 个 大 小 不 明 的 
〈 可 能 很 多 项 ) 的 数据 集合 ， 那 么 链表 可 能 更 合适 ， 因 为 你 可 以 动态 添加 任何 数量 的 数据 项 。 

如 果 你 需要 映射 一 个 UID 到 一 个 对 象 ， 就 使 用 映射 。 映 射 结 构 使 得 映射 工作 简单 有 效 ， 而 
且 映 射 可 以 帮 你 维护 和 分 配 UID。Linux 的 映射 接口 是 针对 UID 到 指针 的 映射 ， 它 并 不 适合 其 他 
场景 。 但 是 如 果 你 在 处 理发 给 用 户 空间 的 描述 符 ， 就 考虑 一 下 映射 吧 。 

如 果 你 需要 存储 大 量 数据 ， 并 且 检 索 迅速 ， 那 么 红 黑 树 最 好 。 红 黑 树 可 确保 搜索 时 间 复 杂 度 
是 对 数 关系 ， 同 时 也 能 保证 按 序 遍历 时 间 复 杂 度 是 线性 关系 。 虽 然 它 比 其 他 数据 结构 复杂 一 些 ， 
但 其 内 存 开销 情况 并 不 是 太 糟 。 但 是 如 果 你 没有 执行 太 多 次 时 间 紧 迫 的 查找 操作 ， 则 红 黑 树 可 能 
不 是 最 好 选择 。 这 种 情况 最 好 使 用 链表 。 

要 是 上 述 数 据 结构 都 不 能 满足 你 的 需要 ， 内 核 还 实现 了 一 些 较 少 使 用 的 数据 结构 ， 也 许 它们 
能 帮 你 ， 比 如 基 树 (trie 类 型 》 和 位 图 。 只 有 当 寻 遍 所 有 内 核 提 供 的 数据 结构 都 不 能 满足 时 ， 你 
才 需 要 自己 设计 数据 结构 。 经 常 在 独立 的 源 文件 中 实现 的 一 种 常见 数据 结构 是 散 列表 。 因 为 散 列 
表 无 非 是 一 些 “ 桶 ”和 一 个 散 列 函数 ， 而 且 这 个 散 列 消 数 是 针对 每 个 用 例 的 ， 因 此 用 非 泛 型 编程 
语言 (如 C 语言 ) 实现 内 核 范围 内 的 统一 散 列表 ， 其 实 这 并 没有 什么 价值 。 


6.6 ”算法 复杂 度 

在 计算 机 科学 和 相关 的 学 科 中 ， 很 有 必要 将 算法 的 复杂 度 〈 或 伸缩 度 ) 量化 地 表示 出 来 。 
虽然 存在 各 种 各 样 表示 伸缩 度 的 方法 ， 但 最 常用 的 技术 还 是 研究 算法 的 渐 近 行为 (asymptotic 
behavior)。 渐 近 行 为 是 指 当 算法 的 输入 变 得 非常 大 或 接近 于 无 限 大 时 算法 的 行为 。 渐 近 行 为 充分 
显示 了 当 一 个 算法 的 输入 逐渐 变 大 时 ， 该 算法 的 伸缩 度 如 何 。 研 究 算法 的 伸缩 度 〈 当 输入 增 大 时 
算法 执行 的 变化 》 可 以 帮助 我 们 以 特定 基准 抽象 出 算法 模型 ， 从 而 更 好 地 理解 算法 的 行为 。 


6.6.1 算法 


算法 就 是 一 系列 的 指令 ， 它 可 能 有 一 个 或 多 个 输入 ， 最 后 产生 一 个 结果 或 输出 。 比 如 计算 一 
个 房间 中 人 数 的 步 又 就 是 一 个 算法 ， 它 的 输入 是 人 ， 计 数 结果 是 输出 。 在 Linux 内 核 中 ， 页 换 出 
和 进程 调度 都 是 算法 的 例子 。 从 数学 角度 讲 ， 一 个 算法 好 比 一 个 函数 〈 或 至 少 我 们 可 将 它 抽 象 为 
一 个 函数 )。 比 如 ， 我 们 称 人 数 统计 算法 为 要 统计 的 人 数 为 x， 可 以 写成 下 面 形式 : 


y = E(x) ”人数 统 计 的 函数 
这 里 y 是 统计 x 个 人 所 需 的 时 间 。 
6.6.2 大 o 符号 


一 种 很 有 用 的 渐 近 表示 法 就 是 上 限 一 一 它 是 一 个 函数 ， 其 值 自从 一 个 起 始点 之 后 总 是 超过 我 
们 所 研究 的 函数 的 值 ， 也 就 是 说 上 限 增 长 等 于 或 者 快 于 我 们 研究 的 函数 。 一 个 特殊 符号 ， 大 o 符 
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号 用 来 描述 这 种 增长 率 。 消 数 fx) 可 写作 O(g(x)), 读 为 “f 是 g 的 大 o”。 数 学 定义 形式 为 : 

如 果 f(x) 是 O(g(x))， 那 么 

3c，x' 满 足 f(x) 和 ceg(X)，YVX>x' 

换 成 自然 语言 就 是 ， 完 成 f(x) 的 时 间 总 是 短 于 或 等 于 完成 g(x) 的 时 间 和 任意 常量 (至 少 ， 
只 要 输入 的 x 值 大 于 某 个 初始 值 x*〉 的 乘积 。 

从 根本 上 讲 ， 我 们 需要 寻找 一 个 函数 ， 它 的 行为 和 我 们 的 算法 一 样 差 或 更 差 。 这 样 一 来 我 们 
就 可 以 通过 给 该 函数 送 入 非常 大 的 输入 ， 然 后 观察 该 函数 的 结果 ， 从 而 了 解 我 们 算法 的 执行 上 限 。 


6.6.3 大 6 符号 


当 大 多 数 人 谈论 大 o 符号 时 ， 更 准确 地 讲 他 们 谈论 的 更 接近 Donald Knuth 所 描述 的 大 9 符号 。 
从 技术 角度 讲 ， 大 o 符号 适合 描述 上 限 ， 比 如 7 是 6 的 上 限 ， 同 样 道理 ，9、12 和 65 也 都 是 6 
的 上 限 。 但 在 后 来 大 多 数 人 讨论 函数 增长 率 时 ， 更 多 说 的 是 最 小 上 限 ， 或 一 个 抽象 出 具有 上 限 和 
下 限 9 的 函数 。 算 法 分 析 领 域 之 父 ，Knuth 教授 ， 将 其 描述 为 大 8 符号 ， 并 给 出 了 下 面 的 定义 : 
如 果 f£(x) 是 g(x) 的 大 86， 那么 g(x) 既是 £(x) 的 上 限 也 是 £(x) 的 下 限 。 


那么 ， 我 们 也 可 以 说 fx) 是 g(x) 级 (order)。 级 或 大 9 ， 是 理解 内 核 中 算法 的 最 重要 的 数 
学 工具 之 一 。 . 

所 以 ， 当 人 们 谈 到 大 。o 符 号 时 ， 他 们 往往 是 在 谈论 大 8 。 当 然 你 不 用 为 此 担心 ， 除 非 你 想 
讨 Knuth 教授 欢心 。 


6.6.4 ”时 间 复 杂 度 


比如 ， 再 次 考虑 计算 房间 里 的 人 数 ， 假 设 你 一 秒 钟 数 一 个 人 ， 那 么 如 果 有 7 个 人 在 房间 
里 ， 你 需要 花 7 秒 钟 数 它们 。 显 然 如 果 有 mn 个 人 ， 需 要 花 n 秒 来 数 它们 。 我 们 称 该 算法 复杂 度 为 
O(n)。 如 果 任 务 是 在 房间 里 的 所 有 人 面前 跳舞 呢 ? 因 为 不 管 房间 里 有 5 个 人 还 是 有 5 000 个 人 ， 
跳舞 花费 的 时 间 都 是 相同 的 ， 所 以 该 任务 的 复杂 度 为 0(1)。 表 6-1 给 出 了 常见 的 复杂 度 。 


表 6-1 时 间 复杂 度 表 


O(g(x)) 名 称 

1 | 恒 量 (理想 的 伸缩 度 ) 
logn 对 数 的 

n 线性 的 

nm 平方 的 

23 立方 的 

2 指数 的 

n! 阶乘 


日 ”如 果 你 好 奇 ， 下 限 使 用 大 omega 符号 建 模 ， 其 定义 除了 g(x) 总 是 小 于 或 等 于 而 不 是 大 于 或 等 于 fx) 外 ， 和 大 o 相 
同 。 大 omega 表示 没有 大 o 表示 有 用 ， 因 为 发 现 函 数 甚至 还 小 于 你 的 函数 ， 这 就 对 国 数 的 行为 几乎 没有 指示 性 。 
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让 房间 里 的 所 有 人 相互 介绍 的 复杂 度 是 多 少 呢 ? 有 什么 函数 抽象 这 种 算法 呢 ? 如 果 介 绍 一 个 
人 需要 花费 30 秒 ， 那 么 相互 介绍 10 个 人 花 多 和 久 呢 ? 介绍 100 个 人 又 需要 花 多 久 呢 ?理解 一 个 算 
法 在 提高 工作 负载 时 的 表现 ， 是 为 给 定 工作 选择 最 好 算法 的 关键 。 

显然 ， 应 避免 使 用 复杂 度 为 O(n!) 或 0(2") 的 算法 ， 另 外 ， 用 复杂 度 为 0(1) 的 函数 代替 复 
杂 度 为 O(n) 的 函数 通常 都 会 提高 执行 性 能 。 但 是 情况 并 非 总 是 如 此 ， 不 能 仅仅 依靠 算法 复杂 度 
(大 o 符 号 ) 来 判断 哪 种 算法 在 实际 使 用 中 性 能 更 高 。 回 忆 一 下 ， 指 定 的 O(g(x))， 有 一 个 恒 量 
c 和 g(x) 相 乘 ， 所 以 有 可 能 复杂 度 为 0(1) 的 算法 需要 花费 3 个 小 时 才能 完成 任务 ， 而 且 无 论 输 
入 多 大 ， 总 是 要 花 3 个 小 时 。 这 样 的 话 很 可 能 要 比 复杂 度 为 O(n)、 但 输入 很 少 的 算法 费时 还 长 。 
因此 我 们 在 比较 算法 性 能 时 ， 还 需要 考虑 输入 规模 。 

我 们 不 赞成 使 用 复杂 的 算法 ， 但 是 时 刻 要 注意 算法 的 负载 和 典型 输入 集合 大 小 的 关系 。 不 要 
为 了 你 根本 不 需要 支持 的 伸缩 度 要 求 ， 盲 目地 去 优化 算法 。 


6.7 小 结 


本 章 我 们 讨论 了 许多 Linux 内 核 开 发 者 们 用 于 实现 从 进程 调度 到 设备 驱动 等 内 核 代码 的 通用 
数据 结构 。 你 会 随 着 学 习 的 深入 ， 慢 慢 发 现 这 些 数 据 结构 的 妙用 。 你 写 自己 的 内 核 代码 时 ， 记 住 
总 是 应 该 重用 已 经 存在 的 内 核 基础 设施 ， 别 去 重复 造 轮子 ! 

我 们 也 介绍 了 算法 复杂 度 以 及 测量 和 标识 算法 复杂 度 的 工具 ， 其 中 最 值得 注意 的 是 大 o。 贯 
穿 本 书 ， 以 及 Linux 内 核 ， 大 o 都 是 我 们 评价 算法 和 内 核 组 件 在 多 用 户 、 处 理 器 、 进 程 、 网 络 连 
接 ， 以 及 其 他 环境 下 伸缩 度 的 重要 指标 。 


第 (7) 章 
中 断 和 中 断 处 理 


任何 操作 系统 内 核 的 核心 任务 ， 都 包含 有 对 连接 到 计算 机 上 的 硬件 设备 进行 有 效 管 理 ， 如 
硬盘 、 蓝 光碟 机 、 键 盘 、 鼠 标 、3D 处 理 器 ， 以 及 无 线 电 等 。 而 想 要 管理 这 些 设备 ， 首 先 要 能 和 
它们 互通 音信 才 行 。 众 所 周知 ， 处 理 器 的 速度 跟 外 围 硬件 设备 的 速度 往往 不 在 一 个 数量 级 上 ， 因 
此 ， 如 果 内 核 采取 让 处 理 器 向 硬件 发 出 一 个 请 求 ， 然 后 专门 等 待 回应 的 办 法 ， 显 然 差强人意 。 既 
然 硬件 的 响应 这 么 慢 ， 那 么 内 核 就 应 该 在 此 期 间 处 理 其 他 事务 ， 等 到 硬件 真正 完成 了 请 求 的 操作 
之 后 ， 再 回 过 头 来 对 它 进行 处 理 。 

那么 到 底 如 何 让 处 理 器 和 这 些 外 部 设备 能 协同 工作 ， 且 不 会 降低 机 器 的 整体 性 能 呢 ? 轮 询 
(polling) 可 能 会 是 一 种 解决 办 法 。 它 可 以 让 内 核定 期 对 设备 的 状态 进行 查询 ， 然 后 做 出 相应 的 
处 理 。 不 过 这 种 方法 很 可 能 会 让 内 核 做 不 少 无 用 功 ， 因 为 无 论 硬件 设备 是 正在 忙碌 着 完成 任务 还 
是 已 经 大 功 告 成 ， 轮 询 总 会 周期 性 地 重复 执行 。 更 好 的 办 法 是 由 我 们 来 提供 一 种 机 制 ， 让 硬件 在 
需要 的 时 候 再 向 内 核发 出 信号 8。 这 就 是 中 断 机 制 。 在 本 章 中 ， 我 们 将 先 讨论 中 断 ， 进 而 讨论 内 
核 如 何 使 用 所 谓 的 中 断 处 理 函 数 处 理 对 应 的 中 断 。 


7.1 中 断 


中 断 使 得 硬件 得 以 发 出 通知 给 处 理 器 。 例 如 ， 在 你 敲 击 键 盘 的 时 候 ， 键 盘 控 制 器 (控制 键盘 
的 硬件 设备 ) 会 发 送 一 个 中 汤 ， 通 知 操作 系统 有 和 键 按 下 。 中 断 本 质 上 是 一 种 特殊 的 电信 号 ， 由 硬 
件 设备 发 向 处 理 器 。 处 理 器 接收 到 中 断后 ， 会 马上 向 操作 系统 反映 此 信号 的 到 来 ， 然 后 就 由 操作 
系统 负责 处 理 这 些 新 到 来 的 数据 。 硬 件 设备 生成 中 断 的 时 候 并 不 考虑 与 处 理 器 的 时 钟 同 步 一 一 换 
句 话 说 就 是 中 断 随时 可 以 产生 。 因 此 ， 内 核 随时 可 能 因为 新 到 来 的 中 断 而 被 打 断 。 

从 物理 学 的 角度 看 ， 中 断 是 一 种 电信 号 ， 由 硬件 设备 生成 ， 并 直接 送 入 中 断 控制 器 的 输入 引 
脚 中 一 一 中 断 控制 器 是 个 简单 的 电子 芯片 ， 其 作用 是 将 多 路 中 疡 管线 ， 采 用 复 用 技术 只 通过 一 个 
和 处 理 器 相连 接 的 管线 与 处 理 器 通信 。 当 接收 到 一 个 中 断后 ， 中 断 控制 器 会 给 处 理 器 发 送 一 个 电 
信号 。 处 理 器 一 经 检测 到 此 信号 ， 便 中 断 自己 的 当前 工作 转 而 处 理 中 新 。 此 后 ， 处 理 器 会 通知 操 
作 系 统 已 经 产生 中 断 ， 这 样 ， 操 作 系统 就 可 以 对 这 个 中 断 进行 适当 地 处 理 了 。 ， 

不 同 的 设备 对 应 的 中 断 不 同 ， 而 每 个 中 断 都 通过 一 个 唯一 的 数字 标志 。 因 此 ， 来 自 键盘 的 中 
断 就 有 别 于 来 自 硬盘 的 中 断 ， 从 而 使 得 操作 系统 能 够 对 中 断 进行 区 分 ， 并 知道 哪个 硬件 设备 产生 
了 哪个 中 断 。 这 样 ， 操 作 系 统 才 能 给 不 同 的 中 断 提供 对 应 的 中 断 处 理 程序 。 


日 ” 变 内 核 主 动 为 硬件 主动 。 一 一 译 者 注 
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这 些 中 断 值 通常 被 称 为 中 断 请 求 〈(IRQ) 线 。 每 个 耻 Q 线 都 会 被 关联 一 个 数值 量 一 一 例如 ， 
在 经 典 的 PC 机上，IRQ 0 是 时 钟 中 断 ， 而 民 Q 1 是 键盘 中 断 。 但 并 非 所 有 的 中 断 号 都 是 这 样 严 
格 定义 的 。 例 如 ， 对 于 连接 在 PCI 总 线 上 的 设备 而 言 ， 中 断 是 动态 分 配 的 。 而 且 其 他 非 PC 的 体 
系 结 构 也 具有 动态 分 配 可 用 中 断 的 特性 。 重 点 在 于 特定 的 中 断 总 是 与 特定 的 设备 相关 联 ， 并 且 内 
核 要 知道 这 些 信 息 。 实 际 上 ， 硬 件 发 出 中 断 是 为 了 引起 内 核 的 关注 : 畴 ， 我 有 新 的 按键 等 待 处 理 
呢 ， 读 取 并 处 理 这 些 调皮 鬼 吧 ! 


异常 

在 操作 系统 中 ， 讨 论 中 断 就 不 能 不 提 及 异常 。 异 常 与 中 断 不 同 ， 它 在 产生 时 必须 考虑 与 
处 理 器 时 钟 同步 。 实 际 上 ， 异 常 也 常常 称 为 同步 中 断 。 在 处 理 器 执行 到 由 于 编程 失误 而 导致 
的 错误 指令 〈 如 被 0 除 ) 的 时 候 ， 或 者 是 在 执行 期 间 出 现 特殊 情况 〈 如 缺 页 )， 必 须 靠 内 核 来 
处 理 的 时 候 ， 处 理 器 就 会 产生 一 个 异常 。 因 为 许多 处 理 器 体系 结构 处 理 异 常 与 处 理 中 断 的 方 
式 类 似 ， 因 此 ， 内 核对 它们 的 处 理 也 很 类 似 。 本 章 对 中 断 〈 由 硬件 产生 的 异步 中 断 ) 的 讨论 ， 
大 部 分 也 适合 于 异常 〈 由 处 理 器 本 身 产 生 的 同步 中 断 )。 

你 已 经 熟悉 一 种 异常 : 在 第 6 章 中 你 已 看 到 ， 在 x86 体系 结构 上 如 何 通 过 软 中 断 实现 系 
统 调用 ， 那 就 是 陷入 内 核 ， 然 后 引起 一 种 特殊 的 异常 一 一 系统 调用 处 理 程序 异常 。 你 会 看 到 ， 
中 断 的 工作 方式 与 之 类 似 ， 其 差异 只 在 于 中 断 是 由 硬件 而 不 是 软件 引起 的 。 


7.2 中断 处 理 程序 


在 响应 一 个 特定 中 断 的 时 候 ， 内 核 会 执行 一 个 函数 ， 该 函数 叫做 中 断 处 理 程序 (interrupt 
handler) 或 中 断 服务 例 程 〈interrupt service routine，ISR)。 产 生 中 断 的 每 个 设备 都 有 一 个 全 相应 
的 中 断 处 理 程序 。 例 如 ， 由 一 个 函数 专门 处 理 来 自 系 统 时 钟 的 中 断 ， 而 另外 一 个 函数 专门 处 理由 
键盘 产生 的 中 断 。 一 个 设备 的 中 断 处 理 程序 是 它 设备 驱动 程序 (driver〉 的 一 部 分 一 一 设备 驱动 
程序 是 用 于 对 设备 进行 管理 的 内 核 代 码 。 

在 Linux 中 ， 中 断 处 理 程序 就 是 普 普 通通 的 C 国 数 。 只 不 过 这 些 国 数 必 须 按照 特定 的 类 型 
声明 ， 以 便 内 核能 够 以 标准 的 方式 传递 处 理 程 序 的 信息 ， 在 其 他 方面 ， 它 们 与 一 般 的 函数 别 无 二 
致 。 中 断 处 理 程序 与 其 他 内 核 函 数 的 真正 区 别 在 于 ， 中 断 处 理 程 序 是 被 内 核 调用 来 响应 中 断 的 ， 
而 它们 运行 于 我 们 称 之 为 中 断 上 下 文 的 特殊 上 下 文中 〈 关 于 中 断 上 上 下文， 我 们 将 在 后 面 讨论 )。 
需要 指出 的 是 ， 中 断 上 下 文 偶尔 也 称 作 原子 上 下 文 ， 因 为 正如 我 们 看 到 的 ， 该 上 下 文中 的 执行 代 
码 不 可 阻塞 。 不 过 在 本 书 中 我 们 使 用 中 断 上 下 文 这 个 称谓 。 

中 断 可 能 随时 发 生 ， 因 此 中 新 处 理 程序 也 就 随时 可 能 执行 。 所 以 必须 保证 中 断 处 理 程 序 能 够 
快速 执行 ， 这 样 才 能 保证 尽 可 能 快 地 恢复 中 断代 码 的 执行 。 因 此 ， 尽 管 对 硬件 而 言 ， 操 作 系统 能 
迅速 对 其 中 断 进行 服务 非常 重要 ; 当然 对 系统 的 其 他 部 分 而 言 ， 让 中 断 处 理 程序 在 尽 可 能 短 的 时 
间 内 完成 运行 也 同样 重要 。 


日” 中 断 处 理 程序 通常 不 是 和 特定 设备 关联 ， 而 是 和 特定 中 断 关 联 的 ， 也 就 是 说 ， 如 果 一 个 设备 可 以 产生 多 种 不 同 
的 中 断 ， 那 么 该 设备 就 可 以 对 应 多 个 中 断 处 理 程序 ， 相 应 的 ， 该 设备 的 驱动 程序 也 就 需要 准备 多 个 这 样 的 函数 。 
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最 起 码 的 ， 中 断 处 理 程序 要 负责 通知 硬件 设备 中 断 已 被 接收 : 轿 ， 硬 件 ， 我 听 到 你 了 ， 现 在 
回去 工作 吧 ! 但 是 中 断 处 理 程序 往往 还 要 完成 大 量 其 他 的 工具 。 例 如 ， 我 们 可 以 考虑 一 下 网 络 设 
备 的 中 断 处 理 程序 面临 的 挑战 。 该 处 理 程序 除了 要 对 硬件 应 答 ， 还 要 把 来 自 硬 件 的 网 络 数据 包 拷 
贝 到 内 存 ， 对 其 进行 处 理 后 再 交 给 合适 的 协议 栈 或 应 用 程序 。 显 而 易 见 ， 这 种 工作 量 不 会 太 小 ， 
尤其 对 于 如 今 的 千 兆 比特 和 万 兆 比 特 以 太 网 卡 而 言 。 


7.3 上 半 部 与 下 半 部 的 对 比 


又 想 中 断 处 理 程序 运行 得 快 ， 又 想 中 断 处 理 程序 完成 的 工作 量 多 ， 这 两 个 目的 显然 有 所 
抵触 。 鉴 于 两 个 目的 之 间 存 在 此 消 彼 长 的 矛盾 关系 ， 所 以 我 们 一 般 把 中 断 处 理 切 为 两 个 部 分 
或 两 半 。 中 断 处 理 程序 是 上 半 部 (top half) 接收 到 一 个 中 断 ， 它 就 立即 开始 执行 ， 但 只 
做 有 严格 时 限 的 工作 ， 例 如 对 接收 的 中 断 进 行 应 答 或 复位 硬件 ， 这 些 工 作 都 是 在 所 有 中 断 被 
禁止 的 情况 下 完成 的 。 能 够 被 允许 稍 后 完成 的 工作 会 推迟 到 下 半 部 (bottom half) 去 。 此 后 ， 
在 合适 的 时 机 ， 下 半 部 会 被 开 中 断 执行 。Linux 提供 了 实现 下 半 部 的 各 种 机 制 ， 第 8 章 会 讨 
论 这 些 机 制 。 

让 我 们 考察 一 下 上 半 部 和 下 半 部 分 割 的 例子 ， 还 是 以 我 们 的 老 朋友 一 一 网 卡 作为 实例 。 当 网 
卡 接 收 来 自 网 络 的 数据 包 时 ， 需 要 通知 内 核 数 据 包 到 了 。 网 卡 需 要 立即 完成 这 件 事 ， 从 而 优化 网 
络 的 吞吐 量 和 传输 周期 ， 以 避免 超时 。 因 此 ， 网 卡 立 即 发 出 中 断 : 史 ， 内 核 ， 我 这 里 有 最 新 数据 
包 了 。 内 核 通 过 执行 网 卡 已 注册 的 中 断 处 理 程 序 来 做 出 应 答 。 

中 断 开始 执行 ， 通 知 硬件 ， 拷 贝 最 新 的 网 络 数据 包 到 内 存 ， 然 后 读 取 网 卡 更 多 的 数据 包 。 这 
些 都 是 重要 、 紧 迫 而 又 与 硬件 相关 的 工作 。 内 核 通常 需要 快速 的 拷贝 网 络 数据 包 到 系统 内 存 ， 因 
为 网 卡 上 接收 网 络 数据 包 的 缓存 大 小 固定 ， 而 且 相 比 系统 内 存 也 要 小 得 多 。 所 以 上 述 拷贝 动作 一 
旦 被 延迟 ， 必 然 造 成 缓存 溢出 一 一 进入 的 网 络 包 占 满 了 网 卡 的 缓存 ， 后 续 的 入 包 只 能 被 丢弃 。 当 
网 络 数据 包 被 拷贝 到 系统 内 存 后 ， 中 断 的 任务 算是 完成 了 ， 这 时 它 将 控制 权 交还 给 系统 被 中 断 前 
原先 运行 的 程序 。 处 理 和 操作 数据 包 的 其 他 工作 在 随后 的 下 半 部 中 进行 。 本 章 ， 我 们 考察 上 半 
部 ; 第 8 章 ， 我 们 关注 下 半 部 。 


7.4 注册 中 断 处 理 程序 


中 断 处 理 程序 是 管理 硬件 的 驱动 程序 的 组 成 部 分 。 每 一 设备 都 有 相关 的 驱动 程序 ， 如 果 设 备 
使 用 中 断 〈 大 部 分 设备 如 此 )， 那 么 相应 的 驱动 程序 就 注册 一 个 中 断 处 理 程序 。 

驱动 程序 可 以 通过 request_irq0 函数 注册 一 个 中 断 处 理 程 序 〈 它 被 声明 在 文件 <linux/interrupt.h> 
中 )， 并 且 激 活 给 定 的 中 断 线 ， 以 处 理 中 断 : 

/* request _irq: 分 配 一 条 给 定 的 中 断 线 */ 


int request irg(unsigned int irG， 





irq handler t handler, 
unsigned long flags, 
const char *name, 
void *dev) 
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第 一 个 参数 irq 表示 要 分 配 的 中 断 号 。 对 某 些 设备 ， 如 传统 PC 设备 上 的 系统 时 钟 或 键盘 ， 
这 个 值 通常 是 预先 确定 的 。 而 对 于 大 多 数 其 他 设备 来 说 ， 这 个 值 要 么 是 可 以 通过 探测 获取 ， 要 么 
可 以 通过 编程 动态 确定 。 

第 二 个 参数 handler 是 一 个 指针 ， 指 向 处 理 这 个 中 断 的 实际 中 断 处 理 程序 。 只 要 操作 系统 - 
接收 到 中 断 ， 该 函数 就 被 调用 。 


typedef irqreturn 上 (*irqg handler t) (int, void *) 


注意 handler 函数 的 原型 ， 它 接受 两 个 参数 ， 并 有 一 个 类 型 为 irqreturn t 的 返回 值 。 我 们 将 
在 本 章 随后 的 部 分 讨论 这 个 函数 。 


7.4.1 中 断 处 理 程序 标志 


第 三 个 参数 flags 可 以 为 0， 也 可 能 是 下 列 一 个 或 多 个 标志 的 位 掩 码 。 其 定义 在 文件 <linux/ 
interrupth>。 在 这 些 标 志 中 最 重要 的 是 : 

"IJIRQF _ DISABLED 一 一 该 标志 被 设置 后 ， 意 味 着 内 核 在 处 理 中 断 处 理 程 序 本 身 期 间 ， 要 禁 
止 所 有 的 其 他 中 断 。 如 果 不 设置 ， 中 断 处 理 程序 可 以 与 除 本 身 外 的 其 他 任何 中 断 同时 运 
行 。 多 数 中 断 处 理 程序 是 不 会 去 设置 该 位 的 ， 因 为 禁止 所 有 中 断 是 一 种 野蛮 行为 。 这 种 用 
法 留 给 希望 快速 执行 的 轻 量 级 中 断 。 这 一 标志 是 SA_INTERRUPT 标志 的 当前 表现 形式 ， 
在 过 去 的 中 断 中 用 以 区 分 “快速 ”和 “ 慢 速 ”中 断 。 

* IRQF_SAMPLE RANDOM 一 一 此 标志 表明 这 个 设备 产生 的 中 汤 对 内 核 籽 entropy pool) 
有 贡献 。 内 核 炉 池 负 责 提 供 从 各 种 随机 事件 导出 的 真正 的 随机 数 。 如 果 指 定 了 该 标志 ， 
那么 来 自 该 设备 的 中 断 间隔 时 间 就 会 作为 寺 填 充 到 焙 地 。 如 果 你 的 设备 以 预知 的 速率 产 
生 中 断 〈 如 系统 定时 器 )， 或 者 可 能 受 外 部 攻击 者 〈 如 联网 设备 ) 的 影响 ， 那 么 就 不 要 设 
置 这 个 标志 。 相 反 ， 有 其 他 很 多 硬件 产生 中 断 的 速率 是 不 可 预知 的 ， 所 以 都 能 成 为 一 种 

* IRQF_TIMER 一 一 该 标志 是 特别 为 系统 定时 器 的 中 断 处理 而 准备 的 。 

“IRQF_ SHARED 一 一 此 标志 表明 可 以 在 多 个 中 断 处 理 程序 之 间 共 享 中 断 线 。 在 同一 个 给 定 
线 上 注册 的 每 个 处 理 程序 必须 指定 这 个 标志 ; 否则 ， 在 每 条 线 上 只 能 有 一 个 处 理 程序 。 有 
关 共 享 中 断 处 理 程 序 的 更 多 信息 将 在 下 面 的 内 容 中 提供 。 

第 四 个 参数 name 是 与 中 断 相 关 的 设备 的 ASCII 文本 表示 。 例 如 ，PC 机 上 键盘 中 断 对 应 的 
这 个 值 为 “keyboard”。 这 些 名 字 会 被 /proc/irq 和 /proc/interrupts 文件 使 用 ， 以 便 与 用 户 通信 ， 稍 
后 我 们 将 对 此 进行 简短 讨论 。 

第 五 个 参数 dev 用 于 共享 中 断 线 。 当 一 个 中 浙 处 理 程序 需要 释放 时 〔《 稍 后 讨论 )，dev 将 提 
供 唯一 的 标志 信息 (cookie)， 以 便 从 共享 中 浙 线 的 诸多 中 断 处 理 程序 中 删除 指定 的 那 一 个 。 如 
果 没 有 这 个 参数 ， 那 么 内 核 不 可 能 知道 在 给 定 的 中 断 线 上 到 底 要 删除 哪 一 个 处 理 程序 。 如 果 无 须 
共享 中 断 线 ， 那 么 将 该 参数 赋 为 空 值 (NULL) 就 可 以 了 ， 但是， 如 果 中 断 线 是 被 共享 的 ， 那 么 
就 必须 传递 唯一 的 信息 《除非 设备 又 旧 又 破 且 位 于 ISA 总 线 上 ， 那 么 就 必须 支持 共享 中 断 )。 另 
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外 ， 内 核 每 次 调用 中 断 处 理 程序 时 ， 都 会 把 这 个 指针 传递 给 它 S。 实 践 中 往往 会 通过 它 传递 驱动 
程序 的 设备 结构 : 这 个 指针 是 唯一 的 ， 而 且 有 可 能 在 中 断 处 理 程 序 内 被 用 到 。 

request_irq() 成 功 执行 会 返回 9。 如果 返回 非 0 值 ， 就 表示 有 错误 发 生 ， 在 这 种 情况 下 ， 指 
定 的 中 断 处 理 程序 不 会 被 和 注册。 最 常见 的 错误 是 -EBUSY， 它 表示 给 定 的 中 断 线 已 经 在 使 用 (或 
者 当前 用 户 或 者 你 没有 指定 IRQF_SHARED)。 

注意 ，request_irq( 函数 可 能 会 睡眠 ， 因 此 ， 不 能 在 中 断 上 下 文 或 其 他 不 允许 阻塞 的 代码 中 
调用 该 函数 。 天 真 地 在 睡眠 不 安全 的 上 下 文中 调用 request_irq0 函数 ， 是 一 种 常见 错误 。 造 成 
这 种 错误 的 部 分 原因 是 为 什么 request_irq0 会 引起 堵塞 一 一 这 确实 让 人 费解 。 在 注册 的 过 程 中 ， 
内 核 需要 在 /proc/irq 文件 中 创建 一 个 与 中 断 对 应 的 项 。 函 数 proc_mkdir0 就 是 用 来 创建 这 个 新 
的 procfs 项 的 。proc_mkdir0 通过 调用 函数 proc_create0 对 这 个 新 的 profs 项 进行 设置 ， 而 proc_ 
create() 会 调用 函数 kmallocO 来 请 求 分 配 内 存 。 我 们 在 第 12 章 中 将 会 看 到 ， 函 数 kmalloc() 是 可 
以 睡眠 的 。 看 清楚 了 ， 你 的 程序 就 是 跑 到 那里 小 获 去 了 ! 


7.4.2 一 个 中 断 例子 
在 一 个 驱动 程序 中 请 求 一 个 中 断 线 ， 并 在 通过 request_irq0 安装 中 断 处 理 程序 : 


request irq(): 


if (request irq(lirqn, my_interrupt, IRQF SHARED, "my device", my dev)) { 
printk (KERN_ERR "my_device: cannot register IRQ $%d\n", irqn); 
return -EIO; 


} 


在 这 个 例子 中 ，irqn 是 请 求 的 中 断 线 ; my_interrupt 是 中 断 处 理 程序 ; 我 们 通过 标志 设置 中 
断 线 可 以 共享 ; 设备 命名 为 “my_device”; 最 后 是 传递 my_dev 变量 给 dev 形 参 。 如 果 请 求 失败 ， 
那么 这 段 代 码 将 打印 出 一 个 错误 并 返回 。 如 果 调 用 返回 0， 则 说 明 处 理 程 序 已 经 成 功 安 装 。 此 
后 ， 处 理 程序 就 会 在 响应 该 中 断 时 被 调用 。 有 一 点 很 重要 ， 初 始 化 硬件 和 注册 中 断 处理 程 序 的 顺 
序 必 须 正 确 ， 以 防止 中 断 处 理 程 序 在 设备 初始 化 完成 之 前 就 开始 执行 。 


7.4.3 ”释放 中 断 处 理 程序 
印 载 驱动 程序 时 ， 需 要 注销 相应 的 中 断 处 理 程序 ， 并 释放 中 断 线 。 上 述 动作 需要 调用 : 


void free irq(unsigned int irq, void *dev) 


如 果 指 定 的 中 断 线 不 是 共享 的 ， 那 么 ， 该 函数 删除 处 理 程 序 的 同时 将 禁用 这 条 中 断 线 。 如 果 
中 断 线 是 共享 的 ， 则 仅 删 除 dev 所 对 应 的 处 理 程序 ， 而 这 条 中 断 线 本 身 只 有 在 删除 了 最 后 一 个 处 
理 程 序 时 才 会 被 禁用 。 由 此 可 以 看 出 为 什么 唯一 的 dev 如 此 重要 。 对 于 共享 的 中 断 线 ， 需 要 一 个 
唯一 的 信息 来 区 分 其 上 面 的 多 个 处 理 程序 ， 并 让 free_irq0 仅仅 删除 指定 的 处 理 程序 。 不 管 在 哪 


日 中 断 处 理 程序 都 是 预先 在 内 核 进行 注册 的 回调 函数 (callback function)， 而 不 同 的 函数 位 于 不 同 的 驱动 程序 
中 ， 所 以 在 这 些 函 数 共享 同 一 个 中 断 线 时 ， 内 核 必须 准确 地 为 它们 创造 执行 环境 ， 此 时 就 可 以 通过 这 个 指针 
将 有 用 的 环境 信息 传递 给 它们 了 。 一 一 译 者 注 
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种 情况 下 (共享 或 不 共享 )， 如 果 dev 非 空 ， 它 都 必须 与 需要 删除 的 处 理 程序 相 匹 配 。 必 须 从 进 
程 上 下 文中 调用 free_irq0。 
表 7-1 给 出 了 终端 处 理 函 数 的 注册 和 注销 函数 。 


表 7-1 中 断 注册 方法 表 


request_irq() 在 给 定 的 中 断 线 上 注册 一 给 定 的 中 断 处 理 程序 
free_irqO) 如 果 在 给 定 的 中 断 线 上 没有 中 断 处 理 程序 ， 则 注销 响应 的 处 理 程序 ， 并 禁用 其 中 断 线 





7.5 编写 中 断 处 理 程序 
以 下 是 一 个 中 断 处 理 程序 声明 


static irqreturn t intr handler (int irq, void *dev) 


注意 ， 它 的 类 型 与 request_irq() 参数 中 handler 所 要 求 的 参数 类 型 相 匹 配 。 第 一 个 参数 irq 就 
是 这 个 处 理 程 序 要 响应 的 中 断 的 中 断 号 。 如 今 ， 这 个 参数 已 经 没有 太 大 用 处 了 ， 可 能 只 是 在 打印 
日 志 信 息 时 会 用 到 。 而 在 2.0 版 以 前 的 Linux 内 核 中 ， 由 于 没有 dev 这 个 参数 ， 必 须 通过 irq 才 
能 区 分 使 用 相同 驱动 程序 ， 因 而 也 使 用 相同 的 中 断 处 理 程 序 的 多 个 设备 。 例 如 ， 具 有 多 个 相同 类 
型 硬盘 驱动 控制 器 的 计算 机 。 

第 二 个 参数 dev 是 一 个 通用 指针 ， 它 与 在 中 断 处 理 程序 注册 时 传递 给 request irq() 的 参 
数 dev 必须 一 致 。 如 果 该 值 有 唯一 确定 性 (这 样 做 是 为 了 能 支持 共享 )， 那 么 它 就 相当 于 一 个 
cookie， 可 以 用 来 区 分 共享 同一 中 断 处 理 程 序 的 多 个 设备 。 另 外 dev 也 可 能 指向 中 断 处 理 程序 使 
用 的 一 个 数据 结构 。 因 为 对 每 个 设备 而 言 ， 设 备 结构 都 是 唯一 的 ， 而 且 可 能 在 中 断 处 理 程 序 中 也 
用 得 到 ， 因 此 ， 它 也 通常 被 看 做 dev。 

中 断 处 理 程序 的 返回 值 是 一 个 特殊 类 型 ; irgreturn t。 中 断 处 理 程序 可 能 返回 两 个 特殊 的 
值 : IRQ_NONE 和 IRQ_HANDLED。 当 中 断 处 理 程 序 检测 到 一 个 中 断 ， 但 该 中 断 对 应 的 设备 
并 不 是 在 注册 处 理 函 数 期 间 指定 的 产生 源 时 ， 返 回 IRQ_NONE ; 当中 断 处 理 程 序 被 正确 调用 ， 
且 确 实 是 它 所 对 应 的 设备 产生 了 中 断 时 ， 返 回 了 下 Q_HANDLED。 另 外 ， 也 可 以 使 用 宏 耻 Q_ 
RETVAL(val)。 如 果 val 为 非 0 值 ， 那 么 该 宕 返回 了 Q_HANDLED ; 否则 ， 返 回 IRQ_NONE。 
利用 这 些 特 殊 的 值 ， 内 核 可 以 知道 设备 发 出 的 是 否 是 一 种 虚假 的 〈 未 请 求 ) 中 断 。 如 果 给 定 中 
断 线 上 所 有 中 断 处 理 程序 返回 的 都 是 IRQ_NONE， 那 么 ， 内 核 就 可 以 检测 到 出 了 问题 。 注 意 ， 
irqretur t 这 个 返回 类 型 实际 上 就 是 一 个 int 型 。 之 所 以 使 用 这 些 特殊 值 是 为 了 与 早期 的 内 核 保 
持 兼 容 一 一 2.6 版 之 前 的 内 核 并 不 支持 这 种 特性 ， 中 断 处 理 程序 只 需 返 回 void 就 行 了 。 如 果 要 在 
2.4 或 更 早 的 内 核 上 使 用 这 样 的 驱动 程序 ， 只 需 简 单 地 将 typedef irqreturn_t 改 为 void， 屏 蔽 掉 此 
特性 ， 并 给 no-ops 定义 不 同 的 返回 值 ， 其 他 用 不 着 做 什么 大 的 修改 。 中 断 处 理 程 序 通常 会 标记 
为 static， 因 为 它 从 来 不 会 被 别 的 文件 中 的 代码 直接 调用 。 

中 断 处 理 程序 扮演 什么 样 的 角色 要 取决 于 产生 中 断 的 设备 和 该 设备 为 什么 要 发 送 中 断 。 即 
使 其 他 什么 工作 也 不 做 ， 绝 大 部 分 的 中 断 处 理 程序 至 少 需要 知道 产生 中 断 的 设备 ， 告 诉 它 已 经 
收 到 中 断 了 。 对 于 复杂 一 些 的 设备 ， 可 能 还 需要 在 中 断 处 理 程 序 中 发 送 和 接收 数据 ， 以 及 执行 一 
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些 扩充 的 工作 。 如 前 所 述 ， 应 尽 可 能 将 扩充 的 工作 推 给 下 半 部 处 理 程序 ， 这 点 将 在 第 8 章 中 进 

行 讨 论 。 

” 重 入 和 中 断 处 理 程序 

Linux 中 的 中 断 处 理 程序 是 无 须 重 入 的 。 当 一 个 给 定 的 中 断 处 理 程序 正在 执行 时 ， 相 应 的 

中 断 线 在 所 有 处 理 器 上 都 会 被 屏 藏 掉 ， 以 防止 在 同一 中 断 线 上 接收 另 一 个 新 的 中 断 。 通 常情 
况 下 ， 所 有 其 他 的 中 断 都 是 打开 的 ， 所 以 这 些 不 同 中 断 线 上 的 其 他 中 断 都 能 被 处 理 ， 但 当前 
中 断 线 总 是 被 禁止 的 。 由 此 可 以 看 出 ， 同 一 个 中 断 处 理 程序 绝对 不 会 被 同时 调用 以 处 理 修 套 
的 中 断 。 这 极 大 地 简化 了 中 断 处 理 程序 的 编写 。 


7.5.1 共享 的 中 断 处 理 程序 


共享 的 处 理 程 序 与 非 共享 的 处 理 程 序 在 注册 和 运行 方式 上 比较 相似 ， 但 差异 主要 有 以 下 
三 处 : 

。request_irq() 的 参数 flags 必须 设置 IRQF_SHARED 标志 。 

。 对 于 每 个 注册 的 中 断 处 理 程序 来 说 ，dev 参数 必须 唯一 。 指 向 任 一 设备 结构 的 指针 就 可 以 

满足 这 一 要 求 ; 通常 会 选择 设备 结构 ， 因 为 它 是 唯一 的 ， 而 且 中 断 处 理 程序 可 能 会 用 到 

它 。 不 能 给 共享 的 处 理 程序 传递 NULL 值 。 

“中断 处 理 程 序 必须 能 够 区 分 它 的 设备 是 否 真 的 产生 了 中 断 。 这 既 需要 硬件 的 支持 ， 也 需要 

处 理 程序 中 有 相关 的 处 理 逻 辑 。 如 果 硬 件 不 支持 这 一 功能 ， 那 中 断 处 理 程序 肯定 会 束 手 无 

策 ， 它 根本 没 法 知道 到 底 是 与 它 对 应 的 设备 发 出 了 这 个 中 断 ， 还 是 共享 这 条 中 断 线 的 其 他 

设备 发 出 了 这 个 中 断 。 

所 有 共享 中 断 线 的 驱动 程序 都 必须 满足 以 上 要 求 。 只 要 有 任何 一 个 设备 没有 按 规则 进行 共 
享 ， 那 么 中 断 线 就 无 法 共享 了 。 指 定 及 QF_SHARED 标志 以 调用 request irq0 时 ， 只 有 在 以 下 
两 种 情况 下 才 可 能 成 功 : 中 断 线 当 前 未 被 注册 ， 或 者 在 该 线 上 的 所 有 已 注册 处 理 程 序 都 指定 了 
IRQF _ SHARED。 注 意 ， 在 这 一 点 上 2.6 版 与 以 前 的 内 核 是 不 同 的 ， 共 享 的 处 理 程序 可 以 混用 
IRQF _ DISABLED。 

内 核 接收 一 个 中 断后 ， 它 将 依次 调用 在 该 中 断 线 上 注册 的 每 一 个 处 理 程 序 。 因 此 ， 一 个 处 
理 程序 必须 知道 它 是 否 应 该 为 这 个 中 断 负 责 。 如 果 与 它 相关 的 设备 并 没有 产生 中 断 ， 那 么 处 理 程 
序 应 该 立即 退出 。 这 需要 硬件 设备 提供 状态 寄存 器 〈 或 类 似 机 制 )， 以 便 中 新 处 理 程序 进行 检查 。 
毫 无 疑问 ， 大 多 数 硬件 都 提供 这 种 功能 。 


7.5.2 中断 处 理 程序 实例 


让 我 们 考察 一 个 实际 的 中 断 处 理 程序 ， 它 来 自 real-time clock (RIC) 驱动 程序 ， 可 以 在 
drivers/charrtc.c 中 找到 。 很 多 机 器 (包括 PC) 都 可 以 找到 RTC。 它 是 一 个 从 系统 定时 器 中 独立 
出 来 的 设备 ， 用 于 设置 系统 时 钟 ， 提 供 报警 器 (alarm) 或 周期 性 的 定时 器 。 对 大 多 数 体系 结构 
而 言 ， 系 统 时 钟 的 设置 ， 通 常 只 需要 向 某 个 特定 的 寄存 器 或 IO 地 址 写 人 想 要 的 时 间 就 可 以 了 。 
然而 报警 器 或 周期 性 定时 器 通常 就 得 靠 中 断 来 实现 。 这 种 中 断 与 生活 中 的 闲 铃 差不多 : 中 断 发 出 
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时 ， 报 警 器 或 定时 器 就 会 启动 。 
RTC 驱动 程序 装载 时 ，rtc_initO 函数 会 被 调用 ， 对 这 个 驱动 程序 进行 初始 化 。 它 的 职责 之 
一 就 是 注册 中 断 处 理 程序 : 


/* 对 rtc_irqg 注册 rtc interrupt */ 

if {request irq(rtc irqg, rtc interrupt, IRQF SHARED, "rtc", (void *)grtc port)) { 
printk (KERN ERR "rtc: cannot register IRQ $d\n", rtc irq); 
return -EIO; we 


} 


从 中 我 们 看 到 ， 中 断 号 由 rtc_irq 指定 。 这 个 变量 用 于 为 给 定 体系 结构 指定 RIC 中 断 。 例 
如 ， 在 PC 上 ，RTIC 位 于 IRQ 8。 第 二 个 参数 是 我 们 的 中 断 处 理 程序 rtc_interrupt 一 一 它 将 与 其 他 
中 汤 处 理 程序 共享 中 断 线 ， 因 为 它 设 置 了 IRQF_SHARED 标志 。 由 第 四 个 参数 我 们 看 出 ， 驱 动 
程序 的 名 称 为 “rtc”。 因 为 这 个 设备 允许 共享 中 断 线 ， 所 以 它 给 dev 型 参 传递 了 一 个 面向 每 个 设 
备 的 实 参 值 。 

最 后 要 展示 的 是 处 理 程 序 本 身 : 


static irqreturn t rtc interrupt (int irq，void *dev) 


/* 
* 可 以 是 报警 器 中 断 、 更 新 完成 的 中 断 或 周期 性 中 断 
* 我 们 把 状态 保存 在 rtc_irq_data 的 低 字 节 中 ， 
* 而 把 从 最 后 一 次 读 取 之 后 所 接收 的 中 断 号 保存 在 其 余 字 节 中 
*/ 
spin lock (grtc lock); 


rtc_irq data += 0x100; 
rtc_irqgq data &= ~ Oxff; 
rtc_irg data |= (CMOS READ (RTC INTR FLAGS) & OxF0); 


if (rtc_status & RTC TIMER ON) 
mod timer(&rtc irg timer, jiffies + HZ2/rtc freq + 2*HZ/100); 


spin unlock (grtc lock); 
/* 

* 现在 执行 其 余 的 操作 

*/ 


spin lockl(grtc task lock); 

if (rtc callback) 
rtc_callback->func (rtc_ callback->private data); 

spin unlock(&rtc task lock); 

wake up interruptiblel(g&rtc wait); 


kill fasync (&rtc async queue, SIGIO, POLL IN); 


return IRQ HANDLED; 


} 


只 要 计算 机 一 接收 到 RTC 中 断 ， 就 会 调用 这 个 函数 。 首 先 要 注意 的 是 使 用 了 自 旋 锁 一 一 第 
一 次 调用 是 为 了 保证 rtc_irq_data 不 被 SMP 机 器 上 的 其 他 处 理 器 同时 访问 ， 第 二 次 调用 避免 rtc_ 
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callback 出 现 相 同 的 情况 。 锁 机 制 在 第 10 章 中 进行 讨论 。 

rtc_irq_data 变量 是 无 符号 长 整数 ， 存 放 有 关 RTC 的 信息 ， 每 次 中 断 时 都 会 更 新 以 反映 中 断 
的 状态 。 

接 下 来 ， 如 果 设 置 了 RTC 周期 性 定时 器 ， 就 要 通过 函数 mod_timer() 对 其 更 新 。 定 时 器 在 第 
11 章 进 行 讨论 。 

代码 的 最 后 一 部 分 一 一 处 于 注释 “现在 执行 其 余 的 操作 ”下 ， 会 执行 一 个 可 能 被 预先 设置 好 
的 回调 函数 。RTC 驱动 程序 允许 注册 一 个 回调 函数 ， 并 在 每 个 RTC 中 断 到 来 时 执行 。 

最 后 ， 这 个 函数 会 返回 IRQ_HANDLED， 表 明 已 经 正确 地 完成 了 对 此 设备 的 操作 。 因 为 这 
个 中 断 处 理 程序 不 支持 共享 ， 而 且 RTC 也 没有 什么 用 来 测试 虚假 中 断 的 机 制 ， 所 以 该 处 理 程序 
总 是 返回 IRQ_HANDLED。 


7.6 中 断 上 下 文 


当 执 行 一 个 中 断 处 理 程序 时 ， 内 核 处 于 中 断 上 下 文 (interrput context) 中 。 让 我 们 先 回 忆 
一 下 进程 上 下 文 。 进 程 上 下 文 是 一 种 内 核 所 处 的 操作 模式 ， 此 时 内 核 代表 进程 执行 一 一 例如 ， 
执行 系统 调用 或 运行 内 核 线程 。 在 进程 上 下 文中 ， 可 以 通过 current 宏 关 联 当 前 进程 。 此 外 ， 
因为 进程 是 以 进程 上 下 文 的 形式 连接 到 内 核 中 的 ， 因 此 ， 进 程 上 下 文 可 以 睡眠 ， 也 可 以 调用 调 
度 程 序 。 

与 之 相反 ， 中 断 上 下 文 和 进程 并 没有 什么 瓜葛 。 与 current 宏 也 是 不 相干 的 (尽管 它 会 指向 
被 中 断 的 进程 )。 因 为 没有 后 备 进程 ， 所 以 中 断 上 下 文 不 可 以 睡眠 ， 否 则 又 怎 能 再 对 它 重 新 调度 
呢 ? 因此 ， 不 能 从 中 断 上 下 文中 调用 某 些 函 数 。 如 果 一 个 函数 睡眠 ， 就 不 能 在 你 的 中 断 处 理 程序 
中 使 用 它 一 一 这 是 对 什么 样 的 函数 可 以 在 中 断 处 理 程序 中 使 用 的 限制 。 

中 断 上 下 文具 有 较为 严格 的 时 间 限 制 ， 因 为 它 打 断 了 其 他 代码 。 中 断 上 下 文中 的 代码 应 当 迅 
速 、 简 洁 ， 尽 量 不 要 使 用 循环 去 处 理 繁重 的 工作 。 有 一 点 非常 重要 ， 请 永远 牢记 : 中 断 处 理 程序 
打 断 了 其 他 的 代码 〈 甚 至 可 能 是 打 断 了 在 其 他 中 断 线 上 的 另 一 中 断 处 理 程序 )。 正 是 因为 这 种 异 
步 执行 的 特性 ， 所 以 所 有 的 中 断 处 理 程序 必须 尽 可 能 的 迅速 、 简 洁 。 尽 量 把 工作 从 中 断 处 理 程序 
中 分 离 出 来 ， 放 在 下 半 部 来 执行 ， 因 为 下 半 部 可 以 在 更 合适 的 时 间 运 行 。 

中 断 处 理 程序 栈 的 设置 是 一 个 配置 选项 。 曾 经 ， 中 断 处 理 程序 并 不 具有 自己 的 栈 。 相 反 ， 它 
们 共享 所 中 断 进 程 的 内 核 栈 9。 内 核 栈 的 大 小 是 两 页 ， 具 体 地 说 ， 在 32 位 体系 结构 上 是 8KB， 
在 64 位 体系 结构 上 是 16KB。 因 为 在 这 种 设置 中 ， 中 断 处 理 程序 共享 别人 的 堆栈 ， 所 以 它们 在 
栈 中 获取 空间 时 必须 非常 节约 。 当 然 ， 内 核 栈 本 来 就 很 有 限 ， 因 此 ， 所 有 的 内 核 代 码 都 应 该 谨慎 
利用 它 。 

在 2.6 版 早期 的 内 核 中 ， 增 加 了 一 个 选项 ， 把 栈 的 大 小 从 两 页 减 到 一 页 ， 也 就 是 在 32 位 的 
系统 上 只 提供 4KB 的 栈 。 这 就 减轻 了 内 存 的 压力 ， 因 为 系统 中 每 个 进程 原先 都 需要 两 页 连续 ， 
且 不 可 换 出 的 内 核 内 存 。 为 了 应 对 栈 大 小 的 减少 ， 中 断 处 理 程序 拥有 了 自己 的 栈 ， 每 个 处 理 器 一 
个 ， 大 小 为 一 页 。 这 个 栈 就 称 为 中 断 栈 ， 尽 管 中 断 栈 的 大 小 是 原先 共享 栈 的 一 半 ， 但 平均 可 用 栈 





日 ”总 得 有 一 个 进程 在 运行 着 。 当 没有 进程 可 调度 时 ， 空 任务 运行 。 
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空间 大 得 多 ， 因 为 中 断 处 理 程序 把 这 一 整 页 占 为 已 有 。 
你 的 中 断 处 理 程 序 不 必 关 心 栈 如 何 设 置 ， 或 者 内 核 栈 的 大 小 是 多 少 。 总 而 言 之 ， 尽 量 节约 内 
核 栈 空间 。 


7.7 中 断 处 理 机 制 的 实现 

中 断 处 理 系统 在 Linux 中 的 实现 是 非常 依赖 于 体系 结构 的 ， 想 必 你 对 此 不 会 感到 特别 惊讶 。 
实现 依赖 于 处 理 器 、 所 使 用 的 中 断 控制 器 的 类 型 、 体 系 结构 的 设计 及 机 器 本 身 。 

图 7-1 是 中 断 从 硬件 到 内 核 的 路 由 。 设 备 产生 中 断 ， 通 过 总 线 把 电信 和 号 发 送 给 中 断 控 制 器 。 
如 果 中 断 线 是 激活 的 〈 它 们 是 允许 被 屏蔽 的 )， 那 么 中 断 控制 器 就 会 把 中 断 发 往 处 理 器 。 在 大 多 
数 体系 结构 中 ， 这 个 工作 就 是 通过 电信 号 给 处 理 器 的 特定 管 脚 发 送 一 个 信号 。 除 非 在 处 理 器 上 禁 
止 访 中断 ， 否 则 ， 处 理 器 会 立即 停止 它 正在 做 的 事 ， 关 闭 中 断 系 统 ， 然 后 跳 到 内 存 中 预定 义 的 位 
置 开始 执行 那里 的 代码 。 这 个 预定 义 的 位 置 是 由 内 核 设 置 的 ， 是 中 断 处 理 程序 的 入 口 点 。 


handle_IRQ_event0 
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图 7-1 中 断 从 硬件 到 内 核 的 路 由 


在 内 核 中 ， 中 断 的 旅程 开始 于 预定 义 人 口 点 ， 这 类 似 于 系统 调用 通过 预定 义 的 异常 句柄 进 
入 内 核 。 对 于 每 条 中 断 线 ， 处 理 器 都 会 跳 到 对 应 的 一 个 唯一 的 位 置 。 这 样 ， 内 核 就 可 知道 所 接 
收 中 断 的 了 RQ 号 了 。 初 始 入 口 点 只 是 在 栈 中 保存 这 个 号 ， 并 存放 当前 寄存 器 的 值 〈 这 些 值 属于 
被 中 断 的 任务 ) ; 然后 ， 内 核 调 用 函数 do_IRQO。 从 这 里 开始 ， 大 多 数 中 断 处 理 代码 是 用 C 编写 
的 一 一 但 它们 依然 与 体系 结构 相关 。 

do_IRQO 的 声明 如 下 : 


unsigned int do IRQ(struct pt regs regs) 


因为 C 的 调用 惯例 是 要 把 函数 参数 放 在 栈 的 顶部 ， 因 此 pt_regs 结构 包含 原始 寄存 器 的 值 ， 
这 些 值 是 以 前 在 汇编 入 口 例 程 中 保存 在 栈 中 的 。 中 断 的 值 也 会 得 以 保存 ， 所 以 ，do_IRQ0 可 以 
将 它 提取 出 来 。 

计算 出 中 断 号 后 ，do_IRQO 对 所 接收 的 中 汤 进行 应 答 ， 禁 止 这 条 线 上 的 中 断 传递 。 在 普通 
的 PC 机 上 ， 这 些 操作 是 由 mask and ack 8259A() 来 完成 的 。 
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接 下 来 ，do_IRQ0 需要 确保 在 这 条 中 断 线 上 有 一 个 有 效 的 处 理 程序 ， 而 且 这 个 程序 已 经 启 
动 ， 但 是 当前 并 没有 执行 。 如 果 是 这 样 的 话 ，do_IRQ0 就 调用 handle IRQ_event0 来 运行 为 这 条 
中 断 线 所 安装 的 中 断 处 理 程序 。 handle IRQ_event( 方法 被 定义 在 文件 kernel/irq/handler.c 中 。 


/**# 

* handle IRQ event - irg action chain handler 

* @irg: the interrupt number 

* @action: the interrupt action chain for this irg 


* Handles the action chain of an irq event 
#] 
irqreturn t handle IRQ event (unsigned int irqg, struct irqaction *action) 
{ 
irqreturn t ret, retval = IRQ NONE; 
unsigned int status = 0; 


if (!(action->flags & IRQF DISABLED)) 
local irqg enable in hardirq(); 


do { 
trace_irqg handler entry{(irqg, action); 
ret = action->handler (irg, action->dev id); 
trace irqg handler exit(irq, action, ret); 


switch (ret) { 
case IRQ WAKE THREAD: 
/* 
人 已 处 理 ， 以 便 可 疑 的 检查 不 再 触发 


ret = IRQ HANDLED; 


/* 
* 捕获 返回 值 为 WAKE_THREAD 的 驱动 程序 ， 但 是 并 不 创建 一 个 线程 函数 
6 
if (unlikely{(!action->thread fn)) { 
warn no thread(irg, action); 
break; 


} 


A , 
* 为 这 次 中 断 唤醒 处 理 线程 。 万 一 线程 崩溃 且 被 杀 死 ， 我 们 仅仅 假装 已 经 处 理 了 该 中 
上 述 的 硬件 中 断 〈hardqirg) 处 理 程序 已 经 禁止 设备 中 断 ， 因 此 杜绝 irq 产生 
if (1Likely(!test_bit (IRQTR DIED， 
&action->thread flags))) { 
Set_bit (IRQTF RUNTHREAD, g&action->thread flags); 
wake up _ process (action->thread) ; 


} 


/* Fall through to add to randomess */ 
Case IRQ HANDLED: 
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status |= action->flags; 
break; 


default: 
break; 


} 


retval |= ret; 
action = action->next; 
} while (action); 


if (status & IRQF SAMPLE RANDOM) 
add interrupt randomness (irq) ; 
local irq disable(); 


return retval; 


} 


首先 ， 因 为 处 理 器 禁止 中 断 ， 这 里 要 把 它们 打开 ， 就 必须 在 处 理 程序 注册 期 间 指定 IRQF_ 
DISABLED 标志 。 回 想 一 下 ，IRQF_DISABLED 表示 处 理 程序 必须 在 中 断 禁止 的 情况 下 运行 。 
接 下 来 ， 每 个 潜在 的 处 理 程序 在 循环 中 依次 执行 。 如 果 这 条 线 不 是 共享 的 ， 第 一 次 执行 后 就 退 
出 循环 。 否 则 ， 所 有 的 处 理 程序 都 要 被 执行 。 之 后 ， 如 果 在 注册 期 间 指定 了 IRQF_SAMPLE_ 
RANDOM 标志 ， 则 还 要 调用 函数 add_interrupt_randomness()。 这 个 函数 使 用 中 断 闻 隔 时 间 为 随 
机 数 产 生 器 产 策 。 最 后 ， 再 将 中 断 禁 止 〈do_IRQO 期 望 中 断 一 直 是 禁止 的 )， 函 数 返回 。 回 
到 do_IRQO， 该 函数 做 清理 工作 并 返回 到 初始 入 只 点 ， 然 后 再 从 这 个 入 口 点 跳 到 函数 ret_from_ 
intr()。 

ret_from_intr() 例 程 类 似 于 初始 入 口 代 码 ， 以 汇编 语言 编写 。 这 个 例 程 检查 重新 调度 是 否 正 
在 挂 起 (回想 一 下 第 4 章 ， 这 意味 着 设置 了 need resched)。 如 果 重 新 调度 正在 挂 起 ， 而 且 内 核 
正在 返回 用 户 空间 〈 也 就 是 说 ， 中 断 了 用 户 进程 )， 那 么 ，schedule0 被 调用 。 如 果 内 核 正 在 返回 
内 核 空 间 〈 也 就 是 说 ， 中 新 了 内 核 本 身 )， 只 有 在 preempt_count 为 0 时 ，schedule() 才 会 被 调用 ， 
否则 ， 抢 占 内 核 便 是 不 安全 的 。 在 schedule0 返回 之 后 ， 或 者 如 果 没 有 挂 起 的 工作 ， 那 么 ， 原 来 
的 寄存 器 被 恢复 ， 内 核 恢复 到 曾经 中 断 的 点 。 

在 x86 上 ， 初 始 的 汇编 例 程 位 于 arch/x86/kernel/entry 64.S (文件 entry_32.S 对 应 32 位 的 
x86 体系 架构 )，C 方法 位 于 arch/x86/kernel/irq.c。 其 他 所 支持 的 结构 与 此 类 似 。 


7.8 /proc/interrupts 


procfs 是 一 个 虚拟 文件 系统 ， 它 只 存在 于 内 核 内 存 ， 一 般 安装 于 /proc 目录 。 在 procfs 中 
读 写 文件 都 要 调用 内 核 函数 ， 这 些 函 数 模 拟 从 真实 文件 中 读 或 写 。 与 此 相关 的 例子 是 /proc/ 
interrupts 文件 ， 该 文件 存放 的 是 系统 中 与 中 断 相关 的 统计 信息 。 下 面 是 从 单 处 理 器 PC 上 输出 的 
信息 : 
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CPUO 
0 3602371 XT-PIC timer 
1 3048 XT-PIC i8042 
人 0 XT-PIC cascade 
4: 2689466 XT-PIC uhci-hcd, eth0 
Se 0 XT-PIC EMU] OK1 


12: 85077 XT-PIC uhci-hcd 
15: 24571 XT-PIC aic7xxx 
NMI: 0 
LOC: 3602236 
ERR: 0 


第 工 列 是 中 断 线 。 在 这 个 系统 中 ， 现 有 的 中 断 号 为 0 一 2、4、5、12 及 15。 这 里 没有 显示 
没有 安装 处 理 程序 的 中 断 线 。 第 2 列 是 一 个 接收 中 断 数目 的 计数 器 。 事 实 上 ， 系 统 中 的 每 个 处 理 
器 都 存在 这 样 的 列 ， 但 是 ， 这 个 机 器 只 有 一 个 处 理 器 。 我 们 看 到 ， 时 钟 中 断 已 接收 3602371 次 
中 断 9， 这 里 ， 声 卡 (EMU10K1) 没有 接收 一 次 中 断 〈 这 表示 机 器 启动 以 来 还 没有 使 用 它 )。 第 
3 列 是 处 理 这 个 中 断 的 中 断 控制 器 。XT-PIC 对 应 于 标准 的 PC 可 编程 中 断 控 制 器 。 在 具有 IO 
APIC 的 系统 上 ， 大 多 数 中 断 会 列 出 IO-APIC-level 或 IO-APIC-edge， 作 为 自己 的 中 断 控制 器 。- 
最 后 一 列 是 与 这 个 中 断 相 关 的 设备 名 字 。 这 个 名 字 是 通过 参数 devname 提供 给 函数 request_irq() 
的 ， 前 面 已 讨论 过 了 。 如 果 中 断 是 共享 的 (例子 中 的 4 号 中 断 就 是 这 种 情况 )， 则 这 条 中 断 线 上 
注册 的 所 有 设备 都 会 列 出 来 。 

对 于 想 深 入 探究 procfs 内 部 的 人 来 说 ，procfs 代码 位 于 fs/proc 中 。 不 必 惊 讶 ， 提 供 /proc/ 
interrupts 的 函数 是 与 体系 结构 相关 的 ， 叫 做 show_interruptsO。 


7.9 中断 控制 


Linux 内 核 提 供 了 一 组 接口 用 于 操作 机 器 上 的 中 断 状态 。 这 些 接口 为 我 们 提供 了 能 够 禁止 当 
前 处 理 器 的 中 断 系统 ， 或 屏蔽 掉 整 个 机 器 的 一 条 中 断 线 的 能 力 ， 这 些 例 程 都 是 与 体系 结构 相关 
的 ， 可 以 在 <asm/system.h> 和 <asm/irq.h> 中 找到 。 本 章 稍 后 给 出 的 表 7-2 是 接口 的 完整 列表 。 

一 般 来 说 ， 控 制 中 断 系 统 的 原因 归根 结 底 是 需要 提供 同步 。 通 过 禁止 中 断 ， 可 以 确保 某 个 中 
断 处 理 程序 不 会 抢占 当前 的 代码 。 此 外 ， 禁 止 中 断 还 可 以 禁止 内 核 抢占 。 然 而 ， 不 管 是 禁止 中 断 
还 是 禁止 内 核 抢占 ， 都 没有 提供 任何 保护 机 制 来 防止 来 自 其 他 处 理 器 的 并 发 访问 。Linux 支持 多 
处 理 器 ， 因 此 ， 内 核 代 码 一 般 都 需要 获取 某 种 锁 ， 防 止 来 自 其 他 处 理 器 对 共享 数据 的 并 发 访问 。 
获取 这 些 锁 的 同时 也 伴随 着 禁止 本 地 中 断 。 锁 提供 保护 机 制 ， 防 止 来 自 其 他 处 理 器 的 并 发 访问 ， 
而 禁止 中 断 提 供 保护 机 制 ， 则 是 防止 来 自 其 他 中 断 处 理 程序 的 并 发 访问 。 第 9 章 和 第 10 章 着 重 
讨论 同步 的 各 种 问题 及 其 对 策 。 因 此 ， 必 须 理解 内 核 中 断 的 控制 接口 。 


7.9.1 禁止 和 激活 中 断 ， 
用 于 禁止 当前 处 理 器 〈 仅 仅 是 当前 处 理 器 ) 上 的 本 地 中 断 ， 随 后 又 激活 它们 的 语句 为 : 


日 ”作为 一 个 练习 ， 读 过 第 11 章 后 ， 你 能 在 知道 时 钟 产 生 的 中 断 次 数 的 情况 下 说 出 系统 已 经 工作 了 多 久 了 吗 〈 根 
据 HZ 值 ) ? 知道 时 钟 中 断 发 生 了 多 少 次 吗 ? 
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local irq disable(); 

/* 禁止 中 断 */ 

local irq enable(); 

这 两 个 函数 通常 以 单个 汇编 指令 来 实现 (当然 ， 这 依赖 于 体系 结构 )。 实 际 上 ， 在 x86 中 ， 
local_ irq_discable() 仅仅 是 cli 指令 ， 而 local irq enable() 只 不 过 是 sti 指令。cli 和 sti 分 别 是 对 
clear 和 set 人 允许 中 断 (allow interrupt〉 标 志 的 汇编 调用 。 换 句 话 说 ， 在 发 出 中 断 的 处 理 器 上 ， 它 
们 将 禁止 和 激活 中 断 的 传递 。 

如 果 在 调用 local_irq_discable0 例 程 之 前 已 经 禁止 了 中 断 ， 那 么 该 例 程 往往 会 带 来 潜在 的 危 
险 ; 同样 相应 的 local irq_enable0 例 程 也 存在 潜在 危险 ， 因 为 它 将 无 条 件 地 激活 中 断 ， 尽 管 这 些 
中 断 可 能 在 开始 时 就 是 关闭 的 。 所 以 我 们 需要 一 种 机 制 把 中 断 恢 复 到 以 前 的 状态 而 不 是 简单 地 禁 
止 或 激活 。 内 核 普 遍 关 心 这 点 是 因为 ， 内 核 中 一 个 给 定 的 代码 路 径 既 可 以 在 中 断 激活 的 情况 下 达 
到 ， 也 可 以 在 中 断 禁止 的 情况 下 达到 ， 这 取决 于 具体 的 调用 链 。 例 如 ， 想 象 一 下 前 面 的 代码 片段 
是 一 个 大 函数 的 组 成 部 分 。 这 个 函数 被 另外 两 个 函数 调用 : 其 中 一 个 函数 禁止 中 断 ， 而 另 一 个 函 
数 不 禁 止 中 断 。 因 为 随 着 内 核 的 不 断 增长 ， 要 想 知道 到 达 这 个 函数 的 所 有 代码 路 径 将 变 得 越 来 越 
困难 ， 因 此 ， 在 禁止 中 断 之 前 保存 中 断 系统 的 状态 会 更 加 安全 一 些 。 相 反 ， 在 准备 激活 中 断 时 ， 
只 需 把 中 断 恢复 到 它们 原来 的 状态 。 


unsigned long flags; 


pi irq_save (flags);  /* 禁止 中 断 */ 
Se 0 ; /* 中 断 被 恢复 到 它们 原来 的 状态 */ 

这 些 方法 至 少 部 分 要 以 宏 的 形式 实现 ， 因 此 表面 上 fags 参数 ( 这 些 参 数 必须 定义 为 
unsigned long 类 型 ) 是 以 值 传递 的 。 该 参数 包含 具体 体系 结构 的 数据 ， 也 就 是 包含 中 断 系统 的 状 
态 。 至 少 有 一 种 体系 结构 把 栈 信息 与 值 相 结合 (SPARC)， 因 此 flags 不 能 传递 给 另 一 个 函数 〈 特 
别 是 它 必 须 驻 留 在 同一 栈 帧 中 )。 基 于 这 个 原因 ， 对 local_irq_save() 和 对 local_irq_restore() 的 调 
用 必须 在 同一 个 函数 中 进行 。 

前 面 的 所 有 函数 既 可 以 在 中 断 中 调用 ， 也 可 以 在 进程 上 下 文中 调用 。 
不 再 使 用 全 局 的 cli() 

以 前 的 内 核 中 提供 了 一 种 “能 够 禁止 系统 中 所 有 处 理 器 上 的 中 断 ” 方 法 。 而 且 ， 如 果 另 

一 个 处 理 器 调用 这 个 方法 ， 那 么 它 就 不 得 不 等 待 ， 直 到 中 断 重新 被 激活 才能 继续 执行 。 这 个 
' 函数 就 是 cli0， 相 应 的 激活 中 断 函数 为 sti0 一 一 虽然 适用 于 所 有 体系 结构 ， 但 完全 以 x86 为 
“中心 。 这 些 接口 在 2.5 版 本 开发 期 间 被 取消 了 ， 相 应 地 ， 所 有 的 中 断 同步 现在 必须 结合 使 用 
本 地 中 断 控制 和 自 旋 锁 (在 第 9 章 中 进行 讨论 )。 这 就 意味 着 ， 为 了 确保 对 共享 数据 的 互 斥 访 
问 ， 以 前 代码 仅仅 需要 通过 全 局 禁止 中 断 达 到 互 斥 ， 而 现在 则 需要 多 做 些 工作 了 。 
) 以 前 ， 驱 动 程序 编写 者 可 能 假定 在 他 们 的 中 断 处 理 程 序 中 ， 任 何 访问 共享 数据 地 方 都 可 
: 以 使 用 cli0 提供 互 斥 访问 。cli0 调用 将 确保 没有 其 他 的 中 断 处 理 程序 〈 因 而 只 有 它们 特定 的 
”处 理 程序 ) 会 运行 。 此 外 ， 如 果 另 一 个 处 理 器 进入 了 cli 保护 区 ， 那 么 它 不 可 能 继续 运行 ， 直 
到 原来 的 处 理 器 退出 它们 的 cli0 保护 区 ， 并 调用 了 sti0 后 才能 继续 运行 。 
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1 取消 全 局 cli0 有 不 少 优点 。 首 先 ， 强 制 驱动 程序 编写 者 实现 真正 的 加 锁 。 要 知道 具有 特 
， 定 目的 细 粒 度 锁 比 全 局 锁 要 快 许 多 ， 而 且 也 完全 吻合 cli0 的 使 用 初衷 。 其 次 ， 这 也 使 得 很 多 
， 代码 更 具 流 线 型 ， 避 免 了 代码 的 成 复 布 局 。 所 以 由 此 得 到 的 中 断 系 统 更 简单 也 更 易于 理解 。 


7.9.2 ”禁止 指定 中 断 线 


在 前 面 的 内 容 中 ， 我 们 看 到 了 禁止 整个 处 理 器 上 所 有 中 断 的 函数 。 在 某 些 情况 下 ， 只 禁止 
整个 系统 中 一 条 特定 的 中 断 线 就 够 了 。 这 就 是 所 谓 的 屏蔽 掉 (masking out) 一 条 中 断 线 。 作 为 例 
子 ， 你 可 能 想 在 对 中 断 的 状态 操作 之 前 禁止 设备 中 断 的 传递 。 为 此 ，Linux 提供 了 四 个 接口 : 


void disable irg(unsigned int irqg); 

void disable irqg nosync(unsigned int irq); 
void enable irgq(unsigned int irq); 

void synchronize irq(unsigned int irq); 


前 两 个 函数 禁止 中 断 控制 器 上 指定 的 中 断 线 ， 即 禁止 给 定 中 断 向 系统 中 所 有 处 理 器 的 传递 。 
另外 ， 函 数 只 有 在 当前 正在 执行 的 所 有 处 理 程序 完成 后 ，disable_irq0 才能 返回 。 因 此 ， 调 用 者 
不 仅 要 确保 不 在 指定 线 上 传递 新 的 中 断 ， 同 时 还 要 确保 所 有 已 经 开始 执行 的 处 理 程序 已 全 部 退 
出 。 函 数 disable_irq_nosync0) 不 会 等 待 当 前 中 断 处 理 程序 执行 完毕 。 

函数 synchronize riq0 等 待 一 个 特定 的 中 断 处 理 程序 的 退出 。 如 果 该 处 理 程序 正在 执行 ， 那 
么 该 函数 必须 退出 后 才能 返回 。 

对 这 些 函 数 的 调用 可 以 修 套 。 但 要 记 住 在 一 条 指定 的 中 断 线 上 ， 对 disable_irq() 或 disable_ 
irq_nosyncg 的 每 次 调用 ， 都 需要 相应 地 调用 一 次 enable_irq()。 只 有 在 对 enable_irq0 完成 最 后 一 
次 调用 后 ， 才 真正 重新 激活 了 中 断 线 。 例 如 ， 如 果 disable_irq0 被 调用 了 两 次 ， 那 么 直到 第 二 次 
调用 enable_irq0O 后 ， 才 能 真正 地 激活 中 断 线 。 

所 有 这 三 个 函数 可 以 从 中 断 或 进程 上 下 文中 调用 ， 而 且 不 会 睡眠 。 但 如 果 从 中 断 上 下 文中 调 
用 ， 就 要 特别 小 心 ! 例如 ， 当 你 正在 处 理 一 条 中 断 线 时 ， 并 不 想 激活 它 〈 回 想 当 某 个 处 理 程序 的 
中 断 线 正在 被 处 理 时 ， 它 被 屏蔽 掉 )。 

禁止 多 个 中 断 处 理 程序 共享 的 中 断 线 是 不 合适 的 。 禁 止 中 断 线 也 就 禁止 了 这 条 线 上 所 有 设备 
的 中 断 传递 。 因 此 ， 用 于 新 设备 的 驱动 程序 应 该 倾向 于 不 使 用 这 些 接口 89。 根据 规 范 ，PCI 设备 
必须 支持 中 断 线 共享 ， 因 此 ， 它 们 根本 不 应 该 使 用 这 些 接 口 。 所 以 ，disable_irq0 及 其 相关 函数 
在 老式 传统 设备 (如 PC 并 口 ) 的 驱动 程序 中 更 容易 被 找到 。 


7.9.3 ”中断 系统 的 状态 


通常 有 必要 了 解 中 断 系统 的 状态 (如 中 断 是 禁止 的 还 是 激活 的 )， 或 者 你 当前 是 否 正 处 于 中 
断 上 下 文 的 执行 状态 中 。 

宏 irqs_disable0 定义 在 <asm/system.h> 中 。 如 果 本 地 处 理 器 上 的 中 断 系 统 被 禁止 ， 则 它 返 

@@ 很 多 老式 设备 ， 尤 其 是 ISA 设备 ， 不 提供 方法 检测 它们 是 否 产生 了 中 断 。 因 为 这 一 点 ，ISA 的 中 断 线 常常 不 


能 共享 。 由 于 PCI 规范 要 求 中 断 共 享 ， 因 此 ， 现 代 基 于 PCI 的 设备 支持 中 断 共 享 。 在 当代 计算 机 中 ， 几 乎 所 
有 的 中 断 线 都 可 以 共享 。 
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回 非 0 ; 否则 返回 0。 
在 <linux/hardirq.h> 中 定义 的 两 个 宏 提 供 一 个 用 来 检查 内 核 的 当前 上 下 文 的 接口 ， 它 们 是 : 


in interrupt () 

in_irqg() 

第 一 个 宏 最 有 用 : 如 果 内 核 处 于 任何 类 型 的 中 断 处 理 中 ， 它 返回 非 0， 说 明 内 核 此 刻 正 在 执 
行 中 断 处 理 程 序 ， 或 者 正在 执行 下 半 部 处 理 程序 。 宏 in_irqO 只 有 在 内 核 确实 正在 执行 中 断 处 理 
程序 时 才 返 回 非 0。 : 

通常 情况 下 ， 你 要 检查 自己 是 否 处 于 进程 上 下 文中 。 也 就 是 说 ， 你 希望 确保 自己 不 在 中 断 上 
下 文中 。 这 种 情况 很 常见 ， 因 为 代码 要 做 一 些 像 睡 卢 这 样 只 能 从 进程 上 下 文中 做 的 事 。 如 果 in_ 
interruptO 返回 0， 则 此 刻 内 核 处 于 进程 上 下 文中 。 

是 的 ， 名 字 有 点 混淆 ， 但 可 以 对 它们 的 含义 稍 加 区 别 。 表 7-2 是 中 断 控制 方法 和 其 描述 的 
摘要 。 


表 7-2 中断 控制 方法 的 列表 


函数 说 明 
local irq_disable() 禁止 本 地 中 断 传递 
local irqg enable() 激活 本 地 中 断 传递 
local irq_save() 保存 本 地 中 断 传递 的 当前 状态 ， 然 后 禁止 本 地 中 断 传递 
local_irq_restore() 恢复 本 地 中 断 传递 到 给 定 的 状态 
disable irq0 禁止 给 定 中 断 线 ， 并 确保 该 函数 返回 之 前 在 该 中 断 线 上 没有 处 理 程序 在 运行 
disable_irq_nosyncO 禁止 给 定 中 断 线 
enable_irqO 激活 给 定 中 断 线 
irqs_disabledO 如 果 本 地 中 断 传递 被 禁止 ， 则 返回 非 0 ; 否则 返回 0 
in_interruptO 如 果 在 中 断 上 下 文中 ， 则 返回 非 0 ; 如 果 在 进程 上 下 文中 ， 则 返回 0 
in irgO 如 果 当 前 正在 执行 中 汤 处 理 程序 ， 则 返回 非 0 ; 否则 返回 0 
7.10 小结 


本 章 介绍 了 中 断 ， 它 是 一 种 由 设备 使 用 的 硬件 资源 异步 向 处 理 器 发 信号 。 实 际 上 ， 中 断 就 是 
由 硬件 来 打 断 操作 系统 。 

大 多 数 现代 硬件 都 通过 中 断 与 操作 系统 通信 。 对 给 定 硬 件 进 行 管理 的 驱动 程序 注册 中 断 处 理 
程序 ， 是 为 了 响应 并 处 理 来 自 相 关 硬 件 的 中 断 。 中 断 过 程 所 做 的 工作 包括 应 答 并 重新 设置 硬件 ， 
从 设备 拷贝 数据 到 内 存 以 及 反之 ， 处 理 硬 件 请 求 ， 并 发 送 新 的 硬件 请 求 。 

内 核 提 供 的 接口 包括 注册 和 注销 中 断 处 理 程 序 、 禁 止 中 断 、 屏 项 中 断 线 以 及 检查 中 断 系 统 的 
状态 。 表 7-2 提供 了 这 些 函 数 的 概述 。 

因为 中 断 打 断 了 其 他 代码 的 执行 〈 进 程 ， 内 核 本 身 ， 甚 至 其 他 中 断 处 理 程序 )， 它 们 必须 赶 
快 执行 完 。 但 通常 是 还 有 很 多 工作 要 做 。 为 了 在 大 量 的 工作 与 必须 快速 执行 之 间 求 得 一 种 平衡 ， 
内 核 把 处 理 中 断 的 工作 分 为 两 半 。 中 断 处 理 程序 ， 也 就 是 上 半 部 在 本 章 讨论 。 现 在 ， 让 我 们 了 解 
下 半 部 。 


第 (8) 章 
下 半 部 和 推 后 执行 的 工作 


在 第 7 章 中 ， 我 们 讨论 了 内 核 为 处 理 中 断 而 提供 的 中 断 处 理 程 序 机 制 。 中 断 处 理 程序 是 内 核 
中 很 有 用 的 (实际 上 也 是 必 不 可 少 的 ) 部分。 但 是 ， 由 于 本 身 存在 一 些 局 限 ， 所 以 它 只 能 完成 整 
个 中 断 处 理 流程 的 上 半 部 分 。 这 些 局 限 包括 : 

。 中断 处 理 程序 以 异步 方式 执行 ， 并 且 它 有 可 能 会 打 断 其 他 重要 代码 〈 甚 至 包括 其 他 中 断 处 

理 程 序 ) 的 执行 。 因 此 ， 为 了 避免 被 打 断 的 代码 停止 时 间 过 长 ， 中 断 处 理 程序 应 该 执行 得 

越 快 越 好 。 

。 如 果 当 前 有 一 个 中 断 处 理 程序 正在 执行 ， 在 最 好 的 情况 下 (如 果 IRQF_DISABLED 设 

有 被 设置 )， 与 该 中 断 同 级 的 其 他 中 断 会 被 屏蔽 ， 在 最 坏 的 情况 下 (如 果 设 置 了 IRQF_ 

DISABLED)， 当 前 处 理 器 上 所 有 其 他 中 断 都 会 被 屏蔽 。 因 为 禁止 中 断后 硬件 与 操作 系统 

无 法 通信 ， 因 此 ， 中 断 处 理 程 序 执行 得 越 快 越 好 。 

* 由 于 中 断 处 理 程序 往往 需要 对 硬件 进行 操作 ， 所 以 它们 通常 有 很 高 的 时 限 要 求 。 

。 中 断 处 理 程序 不 在 进程 上 下 文中 运行 ， 所 以 它们 不 能 阻塞 。 这 限制 了 它们 所 做 的 事情 。 

现在 ， 为 什么 中 断 处 理 程 序 只 能 作为 整个 硬件 中 断 处 理 流 程 一 部 分 的 原因 就 很 明显 了 。 操 作 
系统 必须 有 一 个 快速 、 异 步 、 简 单 的 机 制 负责 对 硬件 做 出 迅速 响应 并 完成 那些 时 间 要 求 很 严格 的 
操作 。 中 断 处 理 程 序 很 适合 于 实现 这 些 功 能 ， 可 是 ， 对 于 那些 其 他 的 、 对 时 间 要 求 相 对 宽松 的 任 
务 ， 就 应 该 推 后 到 中 断 被 激活 以 后 再 去 运行 。 

这 样 ， 整 个 中 断 处 理 流 程 就 被 分 为 了 两 个 部 分 ， 或 叫 两 半 。 第 一 个 部 分 是 中 断 处 理 程序 (上 
半 部 )， 就 像 我 们 在 第 7 章 讨论 的 那样 ， 内 核 通过 对 它 的 异步 执行 完成 对 硬件 中 断 的 即时 响应 。 
在 本 章 中 ， 我 们 要 研究 的 是 中 断 处 理 流程 中 的 另外 那 一 部 分 ， 下 半 部 (bottom halves)。 


8.1 下 半 部 


下 半 部 的 任务 就 是 执行 与 中 断 处 理 密切 相关 但 中 断 处 理 程序 本 身 不 执行 的 工作 。 在 理想 的 情 
况 下 ， 最 好 是 中 断 处 理 程序 将 所 有 工作 都 交 给 下 半 部 分 执行 ， 因 为 我 们 希望 在 中 断 处 理 程序 中 完 
成 的 工作 越 少 越 好 〈 也 就 是 越 快 越 好 )。 我 们 期 望 中 断 处 理 程序 能 够 尽 可 能 快 地 返回 。 

但 是 ， 中 断 处 理 程 序 注定 要 完成 一 部 分 工作 。 例 如 ， 中 断 处 理 程序 几乎 都 需要 通过 操作 硬件 
对 中 断 的 到 达 进 行 确认 ， 有 时 它 还 会 从 硬件 拷贝 数据 。 因 为 这 些 工 作对 时 间 非 常 敏感 ， 所 以 只 能 
靠 中 断 处 理 程序 自己 去 完成 。 

剩 下 的 几乎 所 有 其 他 工作 都 是 下 半 部 执行 的 目标 。 例 如 ， 如 果 你 在 上 半 部 中 把 数据 从 硬件 找 
贝 到 了 内 存 ， 那 么 当然 应 该 在 下 半 部 中 处 理 它们 。 遗 憾 的 是 ， 并 不 存在 严格 明确 的 规定 来 说 明 到 
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底 什 么 任务 应 该 在 哪个 部 分 中 完成 一 一 如 何 做 决定 完全 取决 于 驱动 程序 开发 者 自己 的 判断 。 尽 管 
在 理论 上 不 存在 什么 错误 ， 但 轻率 的 实现 效果 往往 不 很 理想 。 记 住 ， 中 断 处 理 程序 会 异步 执行 
并 且 在 最 好 的 情况 下 它 也 会 锁定 当前 的 中 断 线 。 因 此 将 中 断 处 理 程序 持续 执行 的 时 间 缩短 到 最 小 
程度 显得 非常 重要 。 对 于 在 上 半 部 和 下 半 部 之 间 划 分 工作 ， 尽 管 不 存在 某 种 严格 的 规则 ， 但 还 是 
有 一 些 提 示 可 供 借鉴 : 

* 如 果 一 个 任务 对 时 间 非 常 敏感 ， 将 其 放 在 中 断 处 理 程序 中 执行 

* 如果 一 个 任务 和 硬件 相关 ， 将 其 放 在 中 断 处 理 程序 中 执行 。 

* 如果 一 个 任务 要 保证 不 被 其 他 中 断 〈 特 别 是 相同 的 中 断 ) 打 断 ， 将 其 放 在 中 断 处 理 程序 中 

执行 。 

“其 他 所 有 任务 ， 考 虑 放置 在 下 半 部 执行 

当 你 开始 党 试 写 自己 的 驱动 程序 的 时 候 ， 读 _- 下 别人 的 中 断 处 理 程序 和 相应 的 下 半 部 可 能 会 
让 你 受益 匪 线 。 在 决定 怎样 把 你 的 中 断 处 理 流 程 中 的 工作 划分 到 上 半 部 和 下 半 部 中 去 的 时 候 ， 问 
问 自 己 什么 必须 放 进 上 半 部 而 什么 可 以 放 进 下 半 部 。 通 常 ， 中 断 处 理 程序 要 执行 得 越 快 越 好 。 


8.1.1 为 什么 要 用 下 半 部 


理解 为 什么 要 让 工作 推 后 执行 以 及 在 什么 时 候 推 后 执行 非常 关键 。 你 希望 尽量 减少 中 断 处 
理 程 序 中 需要 完成 的 工作 量 ， 因 为 它 在 运行 的 时 候 ， 当 前 的 中 断 线 在 所 有 处 理 器 上 都 会 被 屏蔽 。 
更 精 糕 的 是 ， 如 果 一 个 处 理 程序 是 代 QF_DISABLED 类 型 ， 它 执行 的 时 候 会 禁止 所 有 本 地 中 断 
《而 且 把 本 地 中 断 线 全 局 地 屏蔽 掉 )。 而 缩短 中 断 被 屏蔽 的 时 间 对 系统 的 响应 能 力 和 性 能 都 至 关 重 
要 。 再 加 上 中 断 处 理 程序 要 与 其 他 程序 〈 甚 至 是 其 他 的 中 断 处 理 程 序 ) 异步 执行 ， 所 以 很 明显 ， 
我 们 必须 尽力 缩短 中 断 处 理 程序 的 执行 。 解 决 的 方法 就 是 把 一 些 工 作 放 到 以 后 去 做 。 

但 有 具体 放 到 以 后 什么 时 候 去 做 呢 ? 在 这 里 ， 以 后 仅仅 用 来 强调 不 是 马上 而 已 ， 理 解 这 一 点 相 
当 重 要 。 下 半 部 并 不 需要 指明 一 个 确切 时 间 ， 只 要 把 这 些 任务 推迟 一 点 ， 让 它 Eee 
并 且 中 断 恢 复 后 执行 就 可 以 了 。 通 常 下 半 部 在 中 断 处 理 程序 一 返回 就 会 马上 运行 。 下 半 部 执行 
关键 在 于 当 它 们 运行 的 时 候 ， 人 允许 响应 所 有 的 中 断 。 

.不 仅仅 是 Linux， 许 多 操作 系统 也 把 处 理 硬件 中 断 的 过 程 分 为 两 个 部 分 。 上 半 部 分 简单 快 
速 ， 执 行 的 时 候 禁 止 一 些 或 者 全 部 中 断 。 下 半 部 分 〈 无 论 具体 如 何 实现 ) 稍 后 执行 ， 而 且 执 行 期 
间 可 以 响应 所 有 的 中 断 。 这 种 设计 可 使 系统 处 于 中 断 屏 蔽 状态 的 时 间 尽 可 能 的 短 ， 以 此 来 提高 系 
统 的 响应 能 力 。 


8.1.2 下 半 部 的 环境 


和 上 半 部 只 能 通过 中 断 处 理 程序 实现 不 同 ， 下 半 部 可 以 通过 多 种 机 制 实现 。 这 些 用 来 实现 下 
半 部 的 机 制 分 别 由 不 同 的 接口 和 子 系统 组 成 。 在 第 7 章 中 ， 我 们 了 解 到 实现 中 断 处 理 程序 的 方法 
只 有 一 种 9， 但 在 本 章 中 你 会 发 现 ， 实 现 一 个 下 半 部 会 有 许多 不 同 的 方法 。 实 际 上 ， 在 Linux 发 


日 在 Linux 中 ， 由 于 上 半 部 从 来 都 只 能 通过 中 断 处 理 程序 实现 ， 所 以 它 和 中 断 处 理 程序 可 以 说 是 等 价 的 。 一 一 
译 者 注 
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展 的 过 程 中 曾经 出 现 过 多 种 下 半 部 机 制 。 让 人 备 受 困扰 的 是 ， 其 中 不 少 机 制 名 字 起 得 很 相像 ， 甚 
至 还 有 一 些 机 制 名 字 起 得 词 不 达意 。 这 就 需要 专门 的 程序 员 来 给 下 半 部 命名 。 

在 本 章 中 ， 我 们 将 要 讨论 2.6 版 本 的 内 核 中 的 下 半 部 机 制 是 如 何 设计 和 实现 的 。 同 时 我 们 也 
会 讨论 怎么 在 自己 编写 的 内 核 代码 中 使 用 它们 。 而 那些 过 去 使 用 的 、 已 经 废除 了 有 一 段 时 间 的 机 
制 ， 由 于 曾经 闻名 垦 撑 ， 所 以 在 相关 的 时 候 我 们 还 是 会 有 所 提 及 。 

1.“ 下 半 部 ”的 起 源 

最 早 的 Linux 只 提供 “bottom half” 这 种 机 制 用 于 实现 下 半 部 。 这 个 名 字 在 那 时 毫 无 异 义 ， 
因为 当时 它 是 将 工作 推 后 的 唯一 方法 。 这 种 机 制 也 被 称 为 “BH”， 我 们 现在 也 这 么 叫 它 ， 以 避免 
和 “下 半 部 ”这 个 通用 词汇 混淆 。 像 过 往 的 那 段 美好 岁月 中 的 许多 东西 一 样 ，BH 接口 也 非常 简 
单 。 它 提供 了 一 个 静态 创建 、 由 32 个 bottom halves 组 成 的 链表 。 上 半 部 通过 一 个 32 位 整数 中 
的 一 位 来 标识 出 哪个 bottom half 可 以 执行 。 每 个 BH 都 在 全 局 范围 内 进行 同步 。 即 使 分 属于 不 同 
的 处 理 器 ， 也 不 允许 任何 两 个 bottom half 同时 执行 。 这 种 机 制 使 用 方便 却 不 够 灵活 ， 简 单 却 有 
性 能 瓶颈 。 

2. 任务 队列 

不 入 ， 内 核 开发 者 们 就 引入 了 任务 队列 (task queue) 机 制 来 实现 工作 的 推 后 执行 ， 并 用 它 
来 代替 BH 机 制 。 内 核 为 此 定义 了 一 组 队列 ， 其 中 每 个 队列 都 包含 一 个 由 等 待 调用 的 函数 组 成 链 
表 。 根 据 其 所 处 队列 的 位 置 ， 这 些 函数 会 在 某 个 时 刻 执 行 。 驱 动 程序 可 以 把 它们 自己 的 下 半 部 注 
册 到 合适 的 队列 上 去 。 这 种 机 制 表 现 得 还 不 错 ， 但 仍 不 够 灵活 ， 没 法 代替 整个 BH 接口 。 对 于 一 
些 性 能 要 求 较 高 的 子 系统 ， 像 网 络 部 分 ， 它 也 不 能 胜任 。 

3. 软 中 断 和 tasklet 

在 2.3 这 个 开发 版 本 中 ， 内 核 开 发 者 引入 了 软 中 断 〈softirqs) 唱 和 tasklet。 如 果 无 须 考虑 和 
过 去 开发 的 驱动 程序 兼容 的 话 ， 软 中 断 和 tasklet 可 以 完全 代替 BH 接口 日 。 软 中 断 是 一 组 静态 定 
义 的 下 半 部 接口 ， 有 32 个， 可 以 在 所 有 处 理 器 上 同时 执行 一 一 即使 两 个 类 型 相同 也 可 以 。tasklet 
这 一 名 称 起 得 很 糟糕 ， 让 人 费解 ， 它 们 是 一 种 基于 软 中 断 实现 的 灵活 性 强 、 动 态 创建 的 下 半 部 实 
现 机 制 信 。 两 个 不 同类 型 的 tasklet 可 以 在 不 同 的 处 理 器 上 同时 执行 ， 但 类 型 相同 的 tasklet 不 能 同 
时 执行 。tasklet 其 实 是 一 种 在 性 能 和 易 用 性 之 间 寻 求 平衡 的 产物 。 对 于 大 部 分 下 半 部 处 理 来 说 ， 
用 tasklet 就 足够 了 ， 像 网 络 这 样 对 性 能 要 求 非常 高 的 情况 才 需 要 使 用 软 中 断 。 可 是 ， 使 用 软 中 
断 需 要 特别 小 心 ， 因 为 两 个 相同 的 软 中 断 有 可 能 同时 被 执行 。 此 外 ， 软 中 断 还 必须 在 编译 期 间 就 
进行 静态 注册 。 与 此 相反 ，tasklet 可 以 通过 代码 进行 动态 注册 。 

有 些 人 被 这 些 概念 彻底 搞 糊涂 了 ， 他 们 把 所 有 的 下 半 部 都 当成 是 软件 产生 的 中 断 或 软 中 断 。 
换 甸 话说， 就 是 他 们 把 软 中 断 机 制 和 下 半 部 统统 都 叫 软 中 断 。 别 管 他 们 好 了 。 软 中 断 与 BH 和 
tasklet 并 驾 其 名 。 


龟 ”这 里 的 软 中 断 与 第 4 章 实现 系统 调用 所 提 到 的 软 中 断 〈 准 确 地 说 该 叫 它 软件 中 断 》 指 的 是 不 同 的 概念 。 一 一 译 者 注 

日 ”把 BH 转化 为 软 中 断 或 者 tasklet 并 不 是 轻而易举 的 事情 ， 因 为 BH 是 全 局 同步 的 ， 因 此 ， 在 执行 期 间 假定 没有 
其 他 BH 执行 。 但 是 ， 这 种 转化 最 终 还 是 在 内 核 2.5 中 实现 了 。 

自 “它们 和 进程 没有 一 点 关系 。 可 以 把 一 个 taskiet 当做 一 个 简单 易 用 的 软 中 断 。 
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在 开发 2.5 版 本 的 内 核 时 ，BH 接口 最 终 被 弃置 了 ， 所 有 的 BH 使 用 者 必须 转 而 使 用 其 他 下 
半 部 接口 。 此 外 ， 任 务 队列 接口 也 被 工作 队列 接口 取代 了 。 工 作 队 列 是 一 种 简单 但 很 有 用 的 方 
法 ， 它 们 先 对 要 推 后 执行 的 工作 排队 ， 稍 后 在 进程 上 下 文中 执行 它们 。 稍 后 的 内 容 中 我 们 再 来 探 
究 它 们 。 

综 上 所 述 ， 在 2.6 这 个 当前 版 本 中 ， 内 核 提供 了 三 种 不 同形 式 的 下 半 部 实现 机 制 : 软 中 断 、 
tasklets 和 工作 队列 。 内 核 过 去 曾经 用 过 的 BH 和 任务 队列 接口 ， 现 在 已 经 被 潭 没 在 记忆 中 了 。 


内 核定 时 器 

另外 一 个 可 以 用 于 将 工作 推 后 执行 的 机 制 是 内 核定 时 器 。 不 像 本 章 到 目前 为 止 介绍 到 的 
所 有 这 些 机 制 ， 内 核定 时 器 把 操作 推迟 到 某 个 确定 的 时 间 段 之 后 执行 。 也 就 是 说 ， 尽 管 本 章 
讨论 的 其 他 机 制 可 以 把 操作 推 后 到 除了 现在 以 外 的 任何 时 间 进 行 ， 但 是 当 你 必须 保证 在 一 个 
”确定 的 时 间 段 过 去 以 后 再 运行 时 ， 你 应 该 使 用 内 核定 时 器 。 

i 较 之 本 章 讨 论 到 的 这 些 机制 ， 定 时 器 还 有 一 些 其 他 功能 。 有 关 定时 器 的 详细 内 容 在 第 11 章 
中 讨论 。 


4. 混乱 的 下 半 部 概念 

这 些 东西 确实 把 人 搅 得 很 混乱 ， 但 它们 其 实 只 不 过 是 一 些 起 名 的 问题 ， 让 我 们 再 来 梳理 一 遍 。 

“下 半 部 (bottom half)” 是 一 个 操作 系统 通用 词汇 ， 用 于 指 代 中 断 处 理 流 程 中 推 后 执行 的 
那 一 部 分 ， 之 所 以 这 样 命名 ， 是 因为 它 表 示 中 断 处 理 方案 一 半 的 第 二 部 分 或 者 下 半 部 。 在 Linux 
中 ， 这 个 词 目前 确实 就 是 这 个 含义 。 所 有 用 于 实现 将 工作 推 后 执行 的 内 核 机 制 都 被 称 为 “下 半 部 
机 制 "”。 一 些 人 错误 地 把 所 有 的 下 半 部 机 制 都 叫做 “ 软 中 断 ”， 真是 在 自 寻 烦恼 。 

“下 半 部 ”这 个 词 也 指 代 Linux 最 早 提供 的 那 种 将 工作 推 后 执行 的 实现 机 制 。 由 于 该 机 制 也 
被 叫做 “BH”， 所 以 ， 我 们 就 使 用 它 的 这 个 名 称 ， 而 让 “下 半 部 ”这 个 词 仍然 保持 它 通 常 的 含 
义 。BH 机 制 很 早 以 前 就 被 反对 使 用 了 ， 在 2.5 版 内 核 中 ， 它 就 被 完全 去 除了 。 

当前 ， 有 三 种 机 制 可 以 用 来 实现 将 工作 推 后 执行 : 软 中 断 、tasklet 和 工作 队列 。tasklet 通过 
软 中 断 实 现 ， 而 工作 队列 与 它们 完全 不 同 。 表 8-1 揭示 了 下 半 部 机 制 的 演化 历程 。 


表 8-1 下 半 部 状态 
下 半 部 机 制 状态 
Ed 在 2.5 中 去 除 
任务 队列 (Task queues) 在 2.5 中 去 除 
软 中 断 (Softirq) 从 2.3 开始 引入 
tasklet 从 2.3 开始 引入 
工作 队列 (Work queues) 从 2.5 开始 引入 


在 搞 清 楚 这 些 混乱 的 命名 之 后 ， 让 我 们 开始 具体 研究 各 个 机 制 。 


8.2 软 中 断 
我 们 的 讨论 从 实际 的 下 半 部 实现 一 一 软 中 断 方法 开始 。 软 中 断 使 用 得 比较 少 ; 而 tasklet 是 
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下 半 部 更 常用 的 一 种 形式 。 但 是 ， 由 于 tasklet 是 通过 软 中 断 实 现 的 ， 所 以 我 们 先 来 研究 软 中 断 。 
软 中 断 的 代码 位 于 kernel/softirq.c 文件 中 。 


8.2.1 软 中 断 的 实现 


软 中 断 是 在 编译 期 间 静 态 分 配 的 。 它 不 像 tasklet 那样 能 被 动态 地 注册 或 和 注销。 软 中 断 由 
softirq_action 结构 表示 ， 它 定义 在 <linux/interrupt.h> 中 : 
struct softirq action { 


void (*action)(struct softirq action *); 


}; 
kernel/softirq.c 中 定义 了 一 个 包含 有 32 个 该 结构 体 的 数组 。 


static struct softirq action softirq vec[NR SOFTIRQS]; 


每 个 被 注册 的 软 中 断 都 占据 该 数组 的 一 项 ， 因 此 最 多 可 能 有 32 个 软 中 断 。 注 意 ， 这 是 一 个 
定 值 一 一 注册 的 软 中 断 数目 的 最 大 值 没 法 动态 改变 。 在 当前 版 本 的 内 核 中 ， 这 32 个 项 中 只 用 到 
9 个 昌 。 

1. 软 中 断 处 理 程序 

软 中 断 处 理 程序 action 的 函数 原型 如 下 : 

void softirq handler(struct softirq action *) 

当 内 核 运 行 一 个 软 中 断 处 理 程序 的 时 候 ， 它 就 会 执行 这 个 action 函数 ， 其 唯一 的 参数 为 指向 
相应 softirq_action 结构 体 的 指针 。 例 如 ， 如 果 my_softirq 指向 softirq_vec 数组 的 某 项 ， 那 么 内 
核 会 用 如 下 的 方式 调用 软 中 断 处 理 程序 中 的 函数 : 

my_softirq->action(my softirq); 

当 你 看 到 内 核 把 整个 结构 体 都 传递 给 软 中 断 处 理 程序 而 不 是 仅仅 传递 数据 值 的 时 候 ， 你 可 能 
会 很 吃惊 。 这 个 小 技巧 可 以 保证 将 来 在 结构 体 中 加 入 新 的 域 时 ， 无 须 对 所 有 的 软 中 断 处 理 程 序 都 
进行 变动 。 如 果 需 要 ， 软 中 断 处 理 程 序 可 以 方便 地 解析 它 的 参数 ， 从 数据 成 员 中 提取 数值 。 

一 个 软 中 断 不 会 抢占 另外 一 个 软 中 断 。 实 际 上 ， 唯 一 可 以 抢占 软 中 断 的 是 中 断 处 理 程序 。 不 
过 ， 其 他 的 软 中 断 〈 甚 至 是 相同 类 型 的 软 中 断 ) 可 以 在 其 他 处 理 器 上 同时 执行 。 

2. 执行 软 中 断 

一 个 注册 的 软 中 断 必须 在 被 标记 后 才 会 执行 。 这 被 称 作 触 发 软 中 断 (raising the softirq )。 通 
常 ， 中 断 处 理 程序 会 在 返回 前 标记 它 的 软 中 断 ， 使 其 在 稍 后 被 执行 。 于 是 ， 在 合适 的 时 刻 ， 该 软 
中 断 就 会 运行 。 在 下 列 地 方 ， 待 处 理 的 软 中 断 会 被 检查 和 执行 : 

。 从 一 个 硬件 中 断代 码 处 返回 时 

* 在 ksoftirqd 内 核 线程 中 

“ 在 那些 显 式 检查 和 执行 待 处 理 的 软 中 断 的 代码 中 ， 如 网 络 子 系统 中 


日 ”大 部 分 驱动 程序 都 使 用 tasklet 来 实现 它们 的 下 半 部 。 我 们 将 在 下 面 的 内 容 中 看 到 ，tasklet 是 用 软 中 断 实 现 的 。 
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不 管 是 用 什么 办 法 唤起 ， 软 中 断 都 要 在 do_softirq( 中 执行 。 该 函数 很 简单 。 如 果 有 待 处 理 
的 软 中 断 ，do_softirq() 会 循环 遍历 每 一 个 ， 调 用 它们 的 处 理 程序 。 让 我 们 观察 一 下 do_softirq0 
经 过 简化 后 的 核心 部 分 : 


u32 pending; 


pending = local softirqg pending(); 
if (pending) { 
struct softirq action *h; 


/* 重 设 待 处 理 的 位 图 */ 
set_ softirq pending(0); 


h = softirq vec; 
do { 
if (pending & 1) 
h->action{(h); 
h++; 
pending >>= 1; 
} while (pending); 


以 上 摘录 的 是 软 中 断 处 理 的 核心 部 分 。 它 检查 并 执行 所 有 待 处 理 的 软 中 断 ， 具 体 要 做 的 
包括 : 

1) 用 局 部 变量 pending 保存 local_softirq_pending0 宏 的 返回 值 。 它 是 待 处 理 的 软 中 断 的 32 
位 位 图 一 一 如 果 第 n 位 被 设置 为 1， 那么 第 n 位 对 应 类 型 的 软 中 断 等 待 处 理 。 

2) 现在 待 处 理 的 软 中 断 位 图 已 经 被 保存 ， 可 以 将 实际 的 软 中 断 位 图 清 零 了 95。 

3) 将 指针 指向 softirq_vec 的 第 一 项 。 

4) 如 果 pending 的 第 一 位 被 置 为 1， 则 h->action(h) 被 调用 。 

5) 指针 加 1， 所 以 现在 它 指 向 softirq_vec 数组 的 第 二 项 。 

6) 位 掩 码 pending 右 移 一 位 。 这 样 会 丢弃 第 一 位 ， 然 后 让 其 他 各 位 依次 向 右 移动 一 个 位 置 。 
于 是 ， 原 来 的 第 二 位 现在 就 在 第 一 位 的 位 置 上 了 【依次 类 推 )。 

7) 现在 指针 h 指向 数组 的 第 二 项 ，pending 位 掩 码 的 第 二 位 现在 也 到 了 第 一 位 上 。 重 复 执行 
上 面 的 步骤 。 

8) 一 直 重 复 下 去 ， 直 到 pending 变 为 0， 这 表明 已 经 没有 待 处 理 的 软 中 断 了 ， 我 们 的 任务 
也 就 完成 了 。 注 意 ， 这 种 检查 足以 保证 h 总 指向 softirq_vec 的 有 效 项 ， 因 为 pending 最 多 只 可 能 
设置 32 位 ， 循 环 最 多 也 只 能 执行 32 次 。 


日 实际 上 在 执行 此 步 操作 时 需要 禁止 本 地 中 断 。 但 在 这 个 简化 的 例子 中 被 省 略 了 。 如 果 中 断 不 被 屏 藏 ， 在 保存 
位 图 和 清除 它 的 间隙 ， 可 能 会 有 一 个 新 的 软 中 断 被 唤醒 〈 它 自然 也 就 会 等 待 处 理 )。 这 可 能 会 造成 对 此 待 处 理 
的 位 进行 不 应 该 的 清 0。 
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8.2.2 ”使 用 软 中 断 


软 中 断 保留 给 系统 中 对 时 间 要 求 最 严格 以 及 最 重要 的 下 半 部 使 用 。 目 前 ， 只 有 两 个 子 系统 
《网络 和 SCSI) 直接 使 用 软 中 断 。 此 外 ， 内 核定 时 器 和 tasklet 都 是 建立 在 软 中 断 上 的 。 如 果 你 想 
加 入 一 个 新 的 软 中 断 ， 首 先 应 该 问 问 自己 为 什么 用 tasklet 实现 不 了 。tasklet 可 以 动态 生成 ， 由 于 
它们 对 加 锁 的 要 求 不 高 ， 所 以 使 用 起 来 也 很 方便 ， 而 且 它 们 的 性 能 也 非常 不 错 。 当 然 ， 对 于 时 间 
要 求 严格 并 能 自己 高 效 地 完成 加 锁 工 作 的 应 用 ， 软 中 断 会 是 正确 的 选择 。 

1. 分 配 索引 

在 编译 期 间 ， 通 过 在 <linux/interrupt.h> 中 定义 的 一 个 枚 举 类 型 来 静态 地 声明 软 中 断 。 内 核 用 
这 些 从 0 开始 的 索引 来 表示 一 种 相对 优先 级 。 索 引号 小 的 软 中 断 在 索引 号 大 的 软 中 断 之 前 执行 。 

建立 一 个 新 的 软 中 断 必须 在 此 枚 举 类 型 中 加 入 新 的 项 。 而 加 入 时 ， 你 不 能 像 在 其 他 地 方 
一 样 ， 简 单 地 把 新 项 加 到 列表 的 末尾 。 相 反 ， 你 必须 根据 希望 赋予 它 的 优先 级 来 决定 加 入 的 位 
置 。 习 惯 上 ，HI_SOFT 蕊 Q 通常 作为 第 一 项 ， 而 RCU_SOFTIRQ 作为 最 后 一 项 。 新 项 可 能 播 在 
BLOCK_SOFTIRQ 和 TASKLET SOFTIRQ 之 间 。 表 8-2 列举 出 了 已 有 的 tasklet 类 型 。 


表 8-2 tasklet 类 型 列表 


i ET 
HI SOFTIRQ | 0 | 优先 级 高 的 tasklets 
TIMER_SOFTIRQ | 定时 器 的 下 半 部 
NET_RX_SOFTIRQ 接收 网 络 数 据 包 
BLOCK. SOFTIRQ | 4 | BLOCK 装置 
TASKLET _ SOFTIRQ 正常 优先 权 的 tasklets 
SCHED_SOFTIRQ | 6 | 调度 程度 
RTE SOFTIRO 
RCU_SOFTIRQ | 8 | RCU 锁定 


2. 注册 你 的 处 理 程序 
接着 ， 在 运行 时 通过 调用 open_softirq0 注册 软 中 断 处 理 程序 ， 该 函数 有 两 个 参数 ; 软 中 断 
的 索引 号 和 处 理 函 数 。 如 网 络 子 系 统 ， 在 net/coreldev.c 通过 以 下 方式 注册 自己 的 软 中 断 : 


open softirq(NET TX SOFTIRQ, net tx action); 
open softirq(NET RX SOFTIRQ, net rx action); 


软 中 断 处 理 程序 执行 的 时 候 ， 人 允许 响应 中 断 ， 但 它 自己 不 能 休 眼 。 在 一 个 处 理 程序 运行 的 时 
候 ， 当 前 处 理 器 上 的 软 中 断 被 禁止 。 但 其 他 的 处 理 器 仍 可 以 执行 别 的 软 中 断 。 实 际 上 ， 如 果 同 一 
个 软 中 断 在 它 被 执行 的 同时 再 次 被 触发 了 ， 那 么 另外 一 个 处 理 器 可 以 同时 运行 其 处 理 程序 。 这 意 
味 着 任何 共享 数据 (其 至 是 仅 在 软 中 断 处 理 程序 内 部 使 用 的 全 局 变量 ) 都 需要 严格 的 锁 保 护 在 
后 面 的 内 容 中 会 讨论 )。 这 点 很 重要 ， 它 也 是 tasklet 更 受 青 睐 的 原因 。 单 纯 地 禁止 你 的 软 中 断 处 
理 程序 同时 执行 不 是 很 理想 。 如 果 仅 仅 通 过 互 斥 的 加 锁 方式 来 防止 它 自 身 的 并 发 执行 ， 那 么 使 用 
软 中 断 就 没有 任何 意义 了 。 因 此 ， 大 部 分 软 中 断 处 理 程序 ， 都 通过 采取 单 处 理 器 数据 〈 仅 属于 某 
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一 个 处 理 器 的 数据 ， 因 此 根本 不 需要 加 锁 ) 或 其 他 一 些 技巧 来 避免 显 式 地 加 锁 ， 从 而 提供 更 出 
色 的 性 能 。 

引入 软 中 断 的 主要 原因 是 其 可 扩展 性 。 如 果 不 需要 扩展 到 多 个 处 理 器 ， 那 么 ， 就 使 用 
tasklet 吧 。tasklet 本 质 上 也 是 软 中 断 ， 只 不 过 同一 个 处 理 程序 的 多 个 实例 不 能 在 多 个 处 理 器 上 
同时 运行 。 

3. 触发 你 的 软 中 断 

通过 在 枚 举 类 型 的 列表 中 添加 新 项 以 及 调用 open_softirq0 进行 注册 以 后 ， 新 的 软 中 断 处 理 
程序 就 能 够 运行 。raise_softirq0 函数 可 以 将 一 个 软 中 断 设置 为 挂 起 状态 ， 让 它 在 下 次 调用 do_ 
softirq() 函数 时 投入 运行 。 举 个 例子 ， 网 络 子 系统 可 能 会 调用 : 


Laise_Softirq(NET_TX_SOFTIRQ) ; 


这 会 触发 NET_TX_SOFTIRQ 软 中 断 。 它 的 处 理 程序 net_tx_action0 就 会 在 内 核 下 一 次 执行 
软 中 断 时 投入 运行 。 该 函数 在 触发 一 个 软 中 断 之 前 先 要 禁止 中 断 ， 触 发 后 再 恢复 原来 的 状态 。 如 
果 中 断 本 来 就 已 经 被 禁止 了 ， 那 么 可 以 调用 另 一 国 数 raise_softirq_irqoff)， 这 会 带 来 一 些 优化 效 
果 。 如 : 


/* 
* 中 断 已 经 被 禁止 
*/ 
raise softirqgq irqoff (NET TX _ SOFTIRQO); 


在 中 断 处 理 程序 中 触发 软 中 断 是 最 常见 的 形式 。 在 这 种 情况 下 ， 中 汤 处 理 程序 执行 硬件 设备 
的 相关 操作 ， 然 后 触发 相应 的 软 中 断 ， 最 后 退出 。 内 核 在 执行 完 中 断 处 理 程序 以 后 ， 马 上 就 会 调 
用 do_softirq0 函数 。 于 是 软 中 断 开始 执行 中 断 处 理 程序 留 给 它 去 完成 的 剩余 任务 。 在 这 个 例子 
中 ,“ 上 半 部 ”和 “下 半 部 ”名 字 的 含义 一 目 了 然 。 


8.3 tasklet 


tasklet 是 利用 软 中 断 实现 的 一 种 下 半 部 机 制 。 我 们 之 前 提 到 过 ， 它 和 进程 没有 任何 关 
系 。tasklet 和 软 中 断 在 本 质 上 很 相似 ， 行 为 表现 也 相近 ， 但 是 ， 它 的 接口 更 简单 ， 锁 保护 也 
要 求 较 低 。 

选择 到 底 是 用 软 中 断 还 是 tasklet 其 实 很 简单 : 通常 你 应 该 用 tasklet。 就 像 我 们 在 前 面 看 到 
的 ， 软 中 断 的 使 用 者 届 指 可 数 。 它 只 在 那些 执行 频率 很 高 和 连续 性 要 求 很 高 的 情况 下 才 需 要 使 
用 。 而 tasklet 却 有 更 广泛 的 用 途 。 大 多 数 情 况 下 用 tasklet 效果 都 不 错 ， 而 且 它 们 还 非常 容易 
使 用 。 . 


8.3.1 tasklet 的 实现 


因为 tasklet 是 通过 软 中 断 实 现 的 ， 所 以 它们 本 身 也 是 软 中 断 。 前 面 讨 论 过 了 ，tasklet 由 两 
类 软 中 断代 表 : HL SOFTIRQ 和 TASKLET SOFTIRQ。 这 两 者 之 间 唯 一 的 实际 区 别 在 于 ，HL_ 
SOFTIRQ 类 型 的 软 中 断 先 于 TASKLET _ SOFTIRQ 类 型 的 软 中 断 执 行 。 
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1. tasklet 结构 体 
tasklet 由 tasklet struct 结构 表示 。 每 个 结构 体 单 独 代表 一 个 tasklet， 它 在 <linux/interrupt.b> 
中 定义 为 : 


struct tasklet struct { 


struct tasklet struct *next; /* 链表 中 的 下 一 个 tasklet */ 
unsigned long state; /* tasklet 的 状态 */ 
atomic t count; /* 引用 计数 器 */ 

void (*func) (unsigned long); /* tasklet 处 理 国 数 */ 
unsigned long data; /* 给 tasklet 处 理 函 数 的 参数 */ 


} ; 

结构 体 中 的 func 成 员 是 tasklet 的 处 理 程序 〈 像 软 中 断 中 的 action 一 样 ), data 是 它 唯 一 的 参数 。 

state 成 员 只 能 在 0、TASKLET STATE SCHED 和 TASKLET STATE RUN 之 间 取 值 。 
TASKLET STATE _ SCHED 表明 tasklet 已 被 调度 ， 正 准备 投入 运行 ，TASKLET STATE RUN 表 
明 该 tasklet 正在 运行 。TASKLET STATE RUN 只 有 在 多 处 理 器 的 系统 上 才 会 作为 一 种 优化 来 使 
用 ， 单 处 理 器 系统 任何 时 候 都 清楚 单个 tasklet 是 不 是 正在 运行 〈 它 要 么 就 是 当前 正在 执行 的 代 
码 ， 要 么 不 是 )。 | 

count 成 员 是 tasklet 的 引用 计数 器 。 如 果 它 不 为 0， 则 tasklet 被 禁止 ， 不 允许 执行 ; 只 有 当 
它 为 0 时 ，tasklet 才 被 激活 ， 并 且 在 被 设置 为 挂 起 状态 时 ， 该 tasklet 才能 够 执行 。 

2. 调度 tasklet 

已 调度 的 tasklet (等 同 于 被 触发 的 软 中 断 ) 9 存放 在 两 个 单 处 理 器 数据 结构 : tasklet_vec ( 普 
通 tasklet) 和 tasklet hi vec (高 优先 级 的 tasklet)。 这 两 个 数据 结构 都 是 由 tasklet _ struct 结构 体 
构成 的 链表 。 链 表 中 的 每 个 tasklet_struct 代表 一 个 不 同 的 tasklet。 

tasklet struct 结构 体 构成 的 链表 。 链 表 中 的 每 个 tasklet struct 代表 一 个 不 同 的 tasklet。 

tasklet 由 tasklet _ schedule0 和 tasklet hi _ schedule0 函数 进行 调度 ， 它 们 接受 一 个 指向 tasklet 
struct 结构 的 指针 作为 参数 。 两 个 函数 非常 类 似 〈 区 别 在 于 一 个 使 用 TASKLET_ SOFTIRQ 而 另 一 
个 用 HL SOFTIRQ)。 在 接 下 来 的 内 容 中 我 们 将 仔细 研究 怎么 编写 和 使 用 tasklets。 现 在 ， 让 我 们 先 
考察 一 下 tasklet_ schedule0 的 细节 : 

tasklet_ schedule0 的 执行 步骤 : 

1) 检查 tasklet 的 状态 是 否 为 TASKLET STATE SCHED。 如 果 是 ， 说 明 tasklet 已 经 被 调度 
过 了 全， 函数 立即 返回 。 

2) 调用 _tasklet_schedule()。 

3) 保存 中 断 状态 ， 然 后 禁止 本 地 中 断 。 在 我 们 执行 tasklet 代码 时 ， 这 么 做 能 够 保证 当 
tasklet_schedule() 处 理 这 些 tasklet 时 ， 处 理 器 上 的 数据 不 会 弄 乱 。 

4) 把 需要 调度 的 tasklet 加 到 每 个 处 理 器 一 个 的 tasklet vec 链表 或 tasklet hi _vec 链表 的 表 
头 上 去 。 


日 ”此 处 是 命名 混乱 的 又 一 个 实例 。 为 什么 软 中 断 是 唤醒 而 tasklet 是 调度 ? 谁 能 说 得 清楚 ? 两 个 词 实际 上 都 表示 
将 此 下 半 部 设置 为 待 执行 状态 后 以 便 稍 后 执行 。 
@@ 有 可 能 是 一 个 tasklet 已 经 被 调度 过 但 还 没 来 得 及 执行 ， 而 该 tasklet 又 被 唤起 了 一 次 。 一 一 译 者 注 
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5) 唤起 TASKLET SOFTIRQ 或 HL SOFTIRQ 软 中 断 ， 这 样 在 下 一 次 调用 do_softirq0 时 就 
会 执行 该 tasklet。 

6) 恢复 中 断 到 原状 态 并 返回 。 

在 前 面 的 内 容 中 我 们 曾经 提 到 过 挂 起 ，do_softirq() 会 尽 可 能 早 地 在 下 一 个 合适 的 时 机 执行 。 
由 于 大 部 分 tasklet 和 软 中 断 都 是 在 中 断 处 理 程序 中 被 设置 成 待 处理 状 态 ， 所 以 最 近 一 个 中 断 返 
回 的 时 候 看 起 来 就 是 执行 do_softirq0 的 最 佳 时 机 。 因 为 TASKLET_SOFTIRQ 和 HIL SOFTIRQ 
已 经 被 触发 了 ， 所 以 do_softirq() 会 执行 相应 的 软 中 断 处 理 程序 。 而 这 两 个 处 理 程序 ，tasklet_ 
action() 和 tasklet_hi_action()， 就 是 tasklet 处 理 的 核心 。 让 我 们 观察 它们 做 了 什么 : 

1) 禁止 中 断 〈 没 有 必要 首先 保存 其 状态 ， 因 为 这 里 的 代码 总 是 作为 软 中 断 被 调用 ， 而 且 中 
断 总 是 被 激活 的 )， 并 为 当前 处 理 器 检索 tasklet_vec 或 tasklet_hig_vec 链表 。 

2) 将 当前 处 理 器 上 的 该 链表 设置 为 NULL， 达 到 清空 的 效果 。 

3) 人 允许 响应 中 断 。 没 有 必要 再 恢复 它们 回 原状 态 ， 因 为 这 段 程序 本 身 就 是 作为 软 中 断 处 理 
程序 被 调用 的 ， 所 以 中 断 是 应 该 被 允许 的 。 

4) 循环 遍历 获得 链表 上 的 每 一 个 待 处 理 的 tasklet。 

5) 如 果 是 多 处 理 器 系统 ， 通 过 检查 TASKLET_STATE_RUN 来 判断 这 个 tasklet 是 否 正在 其 
他 处 理 器 上 运行 。 如 果 它 正在 运行 ， 那 么 现在 就 不 要 执行 ， 跳 到 下 一 个 待 处 理 的 tasklet 去 ( 回 
忆 一 下 ， 同 一 时 间 里 ， 相 同类 型 的 tasklet 只 能 有 一 个 执行 )。 

6) 如 果 当 前 这 个 tasklet 没有 执行 ， 将 其 状态 设置 为 TASKLET_STATE_RUN， 这 样 别 的 处 
理 器 就 不 会 再 去 执行 它 了 。 

7) 检查 count 值 是 否 为 0， 确 保 tasklet 没有 被 禁止 。 如 果 tasklet 被 禁止 了 ， 则 跳 到 下 一 个 
挂 起 的 tasklet 去 。 

8) 我 们 已 经 清楚 地 知道 这 个 tasklet 没有 在 其 他 地 方 执行 ， 并 且 被 我 们 设置 成 执行 状态 ， 这 
样 它 在 其 他 部 分 就 不 会 被 执行 ， 并 且 引 用 计数 为 0， 现 在 可 以 执行 tasklet 的 处 理 程序 了 。 

9) tasklet 运行 完毕 ， 清 除 tasklet 的 state 域 的 TASKLET_STATE_RUN 状态 标志 。 

10) 重复 执行 下 一 个 tasklet， 直 至 没有 剩余 的 等 待 处 理 的 tasklet。 

tasklet 的 实现 很 简单 ， 但 非常 巧妙 。 我 们 可 以 看 到 ， 所 有 的 tasklet 都 通过 重复 运用 HL 
SOFTIRQ 和 TASKLET SOFTIRQ 这 两 个 软 中 断 实现 。 当 一 个 tasklet 被 调度 时 ， 内 核 就 会 唤起 
这 两 个 软 中 断 中 的 一 个 。 随 后 ， 该 软 中 断 会 被 特定 的 函数 处 理 ， 执 行 所 有 已 调度 的 tasklet。 这 个 
函数 保证 同一 时 间 里 只 有 一 个 给 定 类 别 的 tasklet 会 被 执行 (但 其 他 不 同类 型 的 tasklet 可 以 同时 
执行 )。 所 有 这 些 复 杂 性 都 被 一 个 简洁 的 接口 隐藏 起 来 了 。 


8.3.2 使 用 tasklet 


大 多 数 情况 下 ， 为 了 控制 一 个 寻常 的 硬件 设备 ，tasklet 机 制 都 是 实现 自己 的 下 半 部 的 最 佳 选 
择 。tasklet 可 以 动态 创建 ， 使 用 方便 ， 执 行 起 来 也 还 算 快 。 此 外 ， 尽 管 它 们 的 名 字 使 人 混淆 ， 但 
能 加 深 你 的 印象 : 那 是 喜人 喜爱 的 。 

1. 声明 你 自己 的 tasklet 

你 既 可 以 静态 地 创建 tasklet， 也 可 以 动态 地 创建 它 。 选 择 哪 种 方式 取决 于 你 到 底 是 有 (或 者 
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是 想 要 ) 一 个 对 tasklet 的 直接 引用 还 是 间接 引用 。 如 果 你 准备 静态 地 创建 一 个 tasklet (也 就 是 有 
一 个 它 的 直接 引用 )， 使 用 下 面 <linux/interrupt.h> 中 定义 的 两 个 宏 中 的 一 个 ; 


DECLARE TASKLET (name, func, data) 
DECLARE TASKLET DISABLED (name, func, data); 


这 两 个 宏 都 能 根据 给 定 的 名 称 静态 地 创建 一 个 tasklet_struct 结构 。 当 该 tasklet 被 调度 以 后 , 
给 定 的 函数 func 会 被 执行 ， 它 的 参数 由 data 给 出 。 这 两 个 宏 之 间 的 区 别 在 于 引用 计数 器 的 初始 
值 设 置 不 同 。 前 面 一 个 宏 把 创建 的 tasklet 的 引用 计数 器 设置 为 0， 该 tasklet 处 于 激活 状态 。 另 一 
个 把 引用 计数 器 设置 为 1， 所 以 该 tasklet 处 于 禁止 状态 。 下 面 是 一 个 例子 : 


DECLARE TASKLET (my tasklet, my tasklet handler, dev); 


这 行 代码 其 实 等 价 于 


struct tasklet struct my tasklet = { NULL, 0, ATOMIC INIT(0), 
my_tasklet handler, dev}; 


这 样 就 创建 了 一 个 名 为 my_tasklet， 处 理 程序 为 tasklet_handler 并 且 是 已 被 激活 的 tasklet。 
当 处 理 程序 被 调用 的 时 候 ，dev 就 会 被 传递 给 它 。 

还 可 以 通过 将 一 个 间接 引用 一 个 指针 ) 赋 给 一 个 动态 创建 的 tasklet_struct 结构 的 方式 来 初 
始 化 一 个 tasklet_init() : 


tasklet_init (t,tasklet_handler，dev);  /* 动态 而 不 是 静态 创建 */ 


2. 编写 你 自己 的 tasklet 处 理 程 序 
tasklet 处 理 程序 必须 符合 规定 的 函数 类 型 : 


void tasklet handler(unsigned long data) 


因为 是 靠 软 中 断 实现 ， 所 以 tasklet 不 能 睡眠 。 这 意味 着 你 不 能 在 tasklet 中 使 用 信号 量 或 者 
其 他 什么 阻塞 式 的 函数 。 由 于 tasklet 运行 时 允许 响应 中 断 ， 所 以 你 必须 做 好 预防 工作 〈 如 屏蔽 
中 断然 后 获取 一 个 锁 )， 如 果 你 的 tasklet 和 中 断 处 理 程序 之 间 共 享 了 某 些 数据 的 话 。 两 个 相同 的 
tasklet 决 不 会 同时 执行 ， 这 点 和 软 中 断 不 同 尽管 两 个 不 同 的 tasklet 可 以 在 两 个 处 理 器 上 同 
时 执行 。 如 果 你 的 tasklet 和 其 他 的 tasklet 或 者 是 软 中 断 共享 了 数据 ， 你 必须 进行 适当 地 锁 保护 。 
(参看 第 9 章 和 第 10 章 )。 

3. 调度 你 自己 的 tasklet 

通过 调用 tasklet_schedule() 函数 并 传递 给 它 相 应 的 tasklt_struct 的 指针 ， 该 tasklet 就 会 被 调 
度 以 便 执行 : 


tasklet_ schedule (gmy tasklet); /* 把 my_tasklet 标记 为 挂 起 */ 


在 tasklet 被 调度 以 后 ， 只 要 有 机 会 它 就 会 尽 可 能 早 地 运行 。 在 它 还 没有 得 到 运行 机 会 之 前 ， 
如 果 有 一 个 相同 的 tasklet 又 被 调度 了 9， 那么 它 仍然 只 会 运行 一 次 。 而 如 果 这 时 它 已 经 开始 运行 





日 ”这 里 应 该 是 唤起 的 意思 ， 在 前 面 讲述 调度 流程 的 内 容 里 可 以 看 到 ， 调 度 tasklet 的 第 一 个 步 又 就 是 检查 是 否 重 
复 ， 所 以 这 里 根本 不 会 完成 调度 。 一 一 译 者 注 
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了 ， 比 如 说 在 另外 一 个 处 理 器 上 ， 那 么 这 个 新 的 tasklet 会 被 重新 调度 并 再 次 运行 。 作 为 一 种 优 
化 措施 ， 一 个 tasklet 总 在 调度 它 的 处 理 器 上 执行 一 一 这 是 希望 能 更 好 地 利用 处 理 器 的 高 速 缓存 。 

你 可 以 调用 tasklet_disable( 函数 来 禁止 某 个 指定 的 tasklet。 如 果 该 tasklet 当前 正在 执行 ， 
这 个 函数 会 等 到 它 执行 完毕 再 返回 。 你 也 可 以 调用 tasklet_disable_nosync0 函数 ， 它 也 用 来 禁 
止 指定 的 tasklet， 不 过 它 无 须 在 返回 前 等 待 tasklet 执行 完毕 。 这 么 做 往往 不 太 安全 ， 因 为 你 无 
法 估计 该 tasklet 是 否 仍 在 执行 。 调 用 tasklet_enable0( 函数 可 以 激活 一 个 tasklet， 如 果 和 希望 激活 
DECLARE TASKLET_DISABLED0 创建 的 tasklet， 你 也 得 调用 这 个 函数 ， 如 : 


tasklet_disable(&my_ tasklet) ; /* tasklet 现在 被 禁止 */ 
/* 我 们 现在 毫 无 疑问 地 知道 tasklet 不 能 运行 */ 
tasklet enable(&my tasklet); /* tasklet 现在 被 激活 */ 


你 可 以 通过 调用 tasklet kill0 函数 从 挂 起 的 队列 中 去 掉 一 个 tasklet。 该 函数 的 参数 是 一 个 指 
向 某 个 tasklet 的 tasklet_struct 的 长 指针 。 在 处 理 一 个 经 常 重新 调度 它 自身 的 tasklet 的 时 候 ， 从 
挂 起 的 队列 中 移 去 已 调度 的 tasklet 会 很 有 用 。 这 个 函数 首先 等 待 该 tasklet 执行 完毕 ， 然 后 再 将 
它 移 去 。 当 然 ， 没 有 什么 可 以 阻止 其 他 地 方 的 代码 重新 调度 该 tasklet。 由 于 该 函数 可 能 会 引起 休 
卢 ， 所 以 禁止 在 中 断 上 下 文中 使 用 它 。 

4. ksoftirqd 

每 个 处 理 器 都 有 一 组 辅助 处 理 软 中 断 〈 和 tasklet) 的 内 核 线程 。 当 内 核 中 出 现 大 量 软 中 断 的 
时 候 ， 这 些 内 核 进程 就 会 辅助 处 理 它们 。 因 为 tasklet 通过 用 软件 中 断 实施 ， 下 面 的 讨论 同样 适 
用 于 软 中 断 和 tasklet。 简 洁 起 见 ， 我 们 将 主要 参考 软 中 断 。 

我 们 前 面 曾 经 阐述 过 ， 对 于 软 中 断 ， 内 核 会 选择 在 几 个 特殊 时 机 进行 处 理 。 而 在 中 断 处 理 
程序 返回 时 处 理 是 最 常见 的 。 软 中 断 被 触发 的 频率 有 时 可 能 很 高 〈 像 在 进行 大 流量 的 网 络 通信 期 
间 )。 更 不 利 的 是 ， 处 理 函 数 有 时 还 会 自行 重复 触发 。 也 就 是 说 ， 当 一 个 软 中 断 执 行 的 时 候 ， 它 
可 以 重新 触发 自己 以 便 再 次 得 到 执行 (事实 上 ， 网 络 子 系统 就 会 这 么 做 )。 如 果 软 中 断 本 身 出 现 
的 频率 就 高 ， 再 加 上 它们 又 有 将 自己 重新 设置 为 可 执行 状态 的 能 力 ， 那 么 就 会 导致 用 户 空间 进程 
无 法 获得 足够 的 处 理 器 时 间 ， 因 而 处 于 饥饿 状态 。 而 且 ， 单 纯 的 对 重新 触发 的 软 中 断 采取 不 立 
即 处 理 的 策略 ， 也 无 法 让 人 接受 。 当 软 中 断 最 初 提 出 时 ， 就 是 一 个 让 人 进退 维 谷 的 问题 ， 亚 待 解 
决 ， 而 直观 的 解决 方案 又 都 不 理想 。 首 先 ， 就 让 我 们 看 看 两 种 最 容易 想到 的 直观 的 方案 。 

第 一 种 方案 是 ， 只 要 还 有 被 触发 并 等 待 处 理 的 软 中 断 ， 本 次 执行 就 要 负责 处 理 ， 重 新 触发 的 
软 中 断 也 在 本 次 执行 返回 前 被 处 理 。 这 样 做 可 以 保证 对 内 核 的 软 中 断 采取 即时 处 理 的 方式 ， 关 键 
在 于 ， 对 重新 触发 的 软 中 断 也 会 立即 处 理 。 当 负载 很 高 的 时 候 这 样 做 就 会 出 问题 ， 此 时 会 有 大 量 
被 触发 的 软 中 断 ， 而 它们 本 身 又 会 重复 触发 。 系 统 可 能 会 一 直 处 理 软 中 断 ， 根 本 不 能 完成 其 他 任 
务 。 用 户 空 间 的 任务 被 忽略 了 一 一 实际 上 ， 只 有 软 中 断 和 中 断 处 理 程序 轮流 执行 ， 而 系统 的 用 户 
只 能 等 待 。 只 有 在 系统 永远 处 于 低 负载 的 情况 下 ， 这 种 方案 才 会 有 理想 的 运行 效果 ; 只 要 系统 有 
哪怕 是 中 等 程度 的 负载 量 ， 这 种 方案 就 无 法 让 人 满意 。 用 户 空 间 根 本 不 能 容忍 有 明显 的 停顿 出 现 。 

第 二 种 方案 选择 不 处 理 重 新 触发 的 软 中 断 。 在 从 中 断 返 回 的 时 候 ， 内 核 和 平常 一 样 ， 也 会 检 
查 所 有 挂 起 的 软 中 断 并 处 理 它们 。 但 是 ， 任 何 自行 重新 触发 的 软 中 断 都 不 会 马上 处 理 ， 它 们 被 放 
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到 下 一 个 软 中 断 执行 时 去 处 理 。 而 这 个 时 机 通常 也 就 是 下 一 次 中 断 返回 的 时 候 ， 这 等 于 是 说 ， 一 
定 得 等 一 段 时 间 ， 新 的 (或 者 重新 触发 的 ) 软 中 断 才能 被 执行 。 可 是 ， 在 比较 空闲 的 系统 中 ， 立 
即 处 理 软 中 断 才 是 比较 好 的 做 法 。 很 不 幸 ， 这 个 方案 显然 又 是 一 个 时 好 时 坏 的 选择 。 尽 管 它 能 保 
证 用 户 空间 不 处 于 饥 钱 状态 ， 但 它 却 让 软 中 新 忍受 饥饿 的 痛苦 ， 而 根本 没有 好 好 利用 闲置 的 系统 
资源 。 

在 设计 软 中 断 时 ， 开 发 者 就 意识 到 需要 一 些 折 中 。 最 终 在 内 核 中 实现 的 方案 是 不 会 立即 处 理 
重新 触发 的 软 中 断 。 而 作为 改进 ， 当 大 量 软 中 断 出 现 的 时 候 ， 内 核 会 唤醒 一 组 内 核 线程 来 处 理 这 
些 负载 。 这 些 线程 在 最 低 的 优先 级 上 运行 (mice 值 是 19)， 这 能 避免 它们 跟 其 他 重要 的 任务 抢夺 
资源 。 但 它们 最 终 肯 定 会 被 执行 ， 所 以 ， 这 个 折 中 方案 能 够 保证 在 软 中 断 负 担 很 重 的 时 候 ， 用 户 
程序 不 会 因为 得 不 到 处 理 时 间 而 处 于 饥饿 状态 。 相 应 的 ， 也 能 保证 “过 量 ” 的 软 中 断 终究 会 得 到 
处 理 。 最 后 ， 在 空闲 系统 上 ， 这 个 方案 同样 表现 良好 ， 软 中 断 处 理 得 非常 迅速 〈 因 为 仅 存 的 内 核 
线程 肯定 会 马上 调度 )。 

每 个 处 理 器 都 有 一 个 这 样 的 线程 。 所 有 线程 的 名 字 都 叫做 ksoftirqdn， 区 别 在 于 n， 它 
对 应 的 是 处 理 器 的 编号 。 在 一 个 双 CPU 的 机 器 上 就 有 两 个 这 样 的 线程 ， 分 别 叫 ksoftirqd/0 和 
ksoftirqd/1。 为 了 保证 只 要 有 空闲 的 处 理 器 ， 它 们 就 会 处 理 软 中 新 ， 所 以 给 每 个 处 理 器 都 分 配 一 
个 这 样 的 线程 。 一 旦 该 线程 被 初始 化 ， 它 就 会 执行 类 似 下 面 这 样 的 死 循 环 : 

for (;;) { 


zf (!softirq pending(cpu)) 
schedule(); 


set_current state(TASK RUNNING); 


while (softirqg pending(cpu)) { 
do_softirq(); 
if (need resched!()) 
schedule(); 


} 


set_current state(TASK INTERRUPTIBLE); 
} 


只 要 有 待 处 理 的 软 中 断 〈 由 softirq_pending() 函数 负责 发 现 )，ksoftirq 就 会 调用 do_softirq0 
去 处 理 它们 。 通 过 重复 执行 这 样 的 操作 ， 重 新 触发 的 软 中 断 也 会 被 执行 。 如 果 有 必要 的 话 ， 每 次 
迭代 后 都 会 调用 schedule0O 以 便 让 更 重要 的 进程 得 到 处 理 机 会 。 当 所 有 需要 执行 的 操作 都 完成 以 
后 ， 该 内 核 线程 将 自己 设置 为 TASK_INTERRUPTIBLE 状态 ,唤起 调度 程序 选择 其 他 可 执行 进 
程 投入 运行 。 

只 要 do_softirq0 函数 发 现 已 经 执行 过 的 内 核 线程 重新 触发 了 它 自己 ， 软 中 断 内 核 线 程 就 会 
被 唤醒 。 


8.3.3 老 的 BH 机 制 
尽管 BH 机 制 令 人 欣慰 地 退出 了 历史 和 舞台， 在 2.6 版 内 核 中 已 经 难 砚 踪迹 了 。 可 是 ， 它 毕竟 
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曾经 历经 了 视 长 的 时 光一 一 从 最 早 版 本 的 内 核 就 开始 了 。 由 于 其 余 威 尚 存 ， 所 以 仅仅 不 经 意 地 提 
起 它 是 不 够 的 ， 尽 管 在 2.6 版 本 中 已 经 不 再 使 用 它 了 ， 但 历史 就 是 历史 ， 应 该 被 了 解 。 

BH 很 古老 ， 但 它 能 揭示 一 些 东 西 。 所 有 BH 都 是 静态 定义 的 ， 最 多 可 以 有 32 个 。 由 于 
处 理 函数 必须 在 编译 时 就 被 定义 好 ， 所 以 实现 模块 时 不 能 直接 使 用 BH 接口 。 不 过 业已 存在 的 
BH 倒是 可 以 利用 。 随 着 时 间 的 推移 ， 这 种 静态 要 求 和 最 大 为 32 个 的 数目 限制 最 终 妨 碍 了 它们 
的 应 用 。 

每 个 BH 处 理 程序 都 严格 地 按 顺 序 执行 一 一 不 允许 任何 两 个 BH 处 理 程序 同时 执行 ， 即 使 它 
们 的 类 型 不 同 。 这 样 做 倒是 使 同步 变 得 简单 了 ， 可 是 却 不 利于 多 处 理 器 的 可 扩展 性 ， 也 不 利于 大 
型 SMP 的 性 能 。 使 用 BH 的 驱动 程序 很 难 从 多 个 处 理 器 上 受益 ， 特 别 是 网 络 层 ， 可 以 说 为 此 饱 
受 困扰 。 

除了 这 些 特点 ，BH 机 制 和 tasklet 就 很 你 了 。 实 际 上 ， 在 2.4 内 核 中 ，BH 就 是 基于 tasklet 
实现 的 。 所 有 可 能 的 32 个 BH 都 通过 在 <linux/interrupt.h> 中 定义 的 常量 表示 。 如 果 需 要 将 一 个 
BH 标志 为 挂 起 状态 ， 可 以 把 相应 的 BH 号 传 给 mark_bh() 函数 。 在 2.4 内 核 中 ， 这 将 导致 随后 调 
度 BH tasklet， 具 体 工作 是 由 函数 bh_action() 完成 的 。 而 在 2.4 内 核 以 前 ，BH 机 制 独 立 实现 ， 不 
依赖 任何 低级 BH 机 制 ， 这 和 现在 的 软 中 汤 很 像 。 

由 于 这 种 形式 的 下 半 部 机 制 存在 缺点 ， 内 核 开发 者 们 希望 引入 任务 队列 机 制 来 代替 它 。 尽 管 
任务 队列 得 到 了 不 少 使 用 者 的 认可 ， 但 它 实 际 上 并 没有 达成 这 个 目的 。 在 2.3 版 的 内 核 中 ， 引 入 
新 的 软 中 断 和 tasklet 机 制 也 就 结束 了 对 BH 的 使 用 。BH 机 制 基于 tasklet 重新 实现 。 不 幸 的 是 ， 
因为 新 接口 本 身 降低 了 对 执行 的 序列 化 (serialization) 保障 ， 所 以 从 BH 接口 移植 到 tasklet 或 软 
中 断 接 口上 操作 起 来 非常 复杂 SS。 在 2.5 版 中 ， 这 种 移植 最 终 在 定时 器 和 SCSI (最 后 的 BH 使 用 
者 ) 转换 到 软 中 断 机 制 后 完成 了 。 于 是 内 核 开 发 者 们 立即 除去 了 BH 接口 。 终 于 解脱 了 ，BH ! 


8.4 工作 队列 


工作 队列 (work queue) 是 另外 一 种 将 工作 推 后 执行 的 形式 ， 它 和 我 们 前 面 讨论 的 所 有 其 他 
形式 都 不 相同 。 工 作 队 列 可 以 把 工作 推 后 ， 交 由 一 个 内 核 线程 去 执行 一 一 这 个 下 半 部 分 总 是 会 在 
进程 上 下 文中 执行 。 这 样 ， 通 过 工作 队列 执行 的 代码 能 占 尽 进程 上 下 文 的 所 有 优势 。 最 重要 的 就 
是 工作 队列 允许 重新 调度 甚至 是 睡眠 。 

通常 ， 在 工作 队列 和 软 中 断 /tasklet 中 做 出 选择 非常 容易 。 如 果 推 后 执行 的 任务 需要 睡眠 ， 
那么 就 选择 工作 队列 。 如 果 推 后 执行 的 任务 不 需要 睡 眼 ， 那 么 就 选择 软 中 断 或 tasklet。 实 际 上 ， 
工作 队列 通常 可 以 用 内 核 线程 替换 。 但 是 由 于 内 核 开 发 者 们 非常 反对 创建 新 的 内 核 线程 (在 有 些 
场合 ， 使 用 这 种 冒失 的 方法 可 能 会 吃 到 苦头 )， 所 以 我 们 也 推荐 使 用 工作 队列 。 当 然 ， 这 种 接口 
也 的 确 很 容易 使 用 。 

如 果 你 需要 用 一 个 可 以 重新 调度 的 实体 来 执行 你 的 下 半 部 处 理 ， 你 应 该 使 用 工作 队列 。 它 是 





日 实际 上 ， 接 口 降低 对 执行 的 序列 化 保障 能 够 提高 安全 性 ， 但 却 难于 编程 。 移 植 一 个 BH 到 tasklet， 需 要 仔细 地 
项 酌 代 码 与 其 他 tasklet 同时 执行 是 否 安全 。 不 过 ， 当 最 终 完成 这 样 的 移植 后 ， 性 能 上 的 提高 会 使 这 些 额外 工 
作物 有 所 值 。 
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唯一 能 在 进程 上 下 文中 运行 的 下 半 部 实现 机 制 ， 也 只 有 它 才 可 以 睡眠 。 这 意味 着 在 你 需要 获得 大 
量 的 内 存 时 ， 在 你 需要 获取 信号 量 时 ， 在 你 需要 执行 阻塞 式 的 IO 操作 时 ， 它 都 会 非常 有 用 。 如 
果 你 不 需要 用 一 个 内 核 线程 来 推 后 执行 工作 ， 那 么 就 考虑 使 用 tasklet 吧 。 


8.4.1 工作 队列 的 实现 


工作 队列 子 系统 是 一 个 用 于 创建 内 核 线 程 的 接口 ， 通 过 它 创 建 的 进程 负责 执行 由 内 核 其 他 部 
分 排 到 队列 里 的 任务 。 它 创建 的 这 些 内 核 线程 称 作 工 作者 线程 (worker thread)。 工 作 队 列 可 以 
让 你 的 驱动 程序 创建 一 个 专门 的 工作 者 线程 来 处 理 需 要 推 后 的 工作 。 不 过 ， 工 作 队 列子 系统 提供 
了 一 个 缺 省 的 工作 者 线程 来 处 理 这 些 工 作 。 因 此 ， 工 作 队列 最 基本 的 表现 形式 ， 就 转变 成 了 一 个 
把 需要 推 后 执行 的 任务 交 给 特定 的 通用 线程 的 这 样 一 种 接口 。 

缺 省 的 工作 者 线程 叫做 eventsn， 这 里 了 是 处 理 器 的 编号 ; 每 个 处 理 器 对 应 一 个 线程 。 例 
如 ， 单 处 理 器 的 系统 只 有 events/0 这 样 一 个 线程 ， 而 双 处 理 器 的 系统 就 会 多 一 个 events/1 线程 。 
缺 省 的 工作 者 线程 会 从 多 个 地 方 得 到 被 推 后 的 工作 。 许 多 内 核 驱动 程序 都 把 它们 的 下 半 部 交 给 缺 
省 的 工作 者 线程 去 做 。 除 非 一 个 驱动 程序 或 者 子 系统 必须 建立 一 个 属于 它 自 己 的 内 核 线程 ， 否 则 
最 好 使 用 缺 省 线程 。 

不 过 并 不 存在 什么 东西 能 够 阻止 代码 创建 属于 自己 的 工作 者 线程 。 如 果 你 需要 在 工作 者 线程 
中 执行 大 量 的 处 理 操作 ， 这 样 做 或 许 会 带 来 好 处 。 处 理 器 密集 型 和 性 能 要 求 严格 的 任务 会 因为 拥 
有 自己 的 工作 者 线程 而 获得 好 处 。 此 时 这 么 做 也 有 助 于 减轻 缺 省 线程 的 负担 ， 避 免 工 作 队 列 中 其 
他 需要 完成 的 工作 处 于 饥饿 状态 。 

1. 表示 线程 的 数据 结构 

工作 者 线程 用 workqueue_struct 结构 表示 : 

/* 


* 外 部 可 见 的 工作 队列 抽象 是 
* 由 每 个 CPU 的 工作 队列 组 成 的 数组 
*/ 


struct workqueue struct { 
struct cpu workqueue struct cpu wq[NR CPUS]; 
struct list head list; 
const char *name; 
int singqlethread; 
int freezeable; 
int rt; 


}; 

该 结构 内 是 一 个 由 cpu_ workqueue_struct 结构 组 成 的 数组 ， 它 定义 在 kernel/workqueue.c 中 ， 
数组 的 每 一 项 对 应 系统 中 的 一 个 处 理 器 。 由 于 系统 中 每 个 处 理 器 对 应 一 个 工作 者 线程 ， 所 以 对 
于 给 定 的 某 台 计算 机 来 说 ， 就 是 每 个 处 理 器 ， 每 个 工作 者 线程 对 应 一 个 这 样 的 cpu_workqueue_ 
struct 结构 体 。cpu_work queue_struct 是 kemel/workqueue.c 中 的 核心 数据 结构 : 


struct cpu workqueue struct { 


spinlock t lock; /* 锁 保 护 这 种 结构 */ 


struct list head worklist; /* 工作 列表 */ 
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wait queue head t more work; 
struct work struct*current struct; 


struct workqueue struct *wq; /* 关联 工作 队列 结构 */ 
task t *thread; /* 关联 线程 */ 


}; 
注意 ， 每 个 工作 者 线程 类 型 关联 一 个 自己 的 workqueue_struct。 在 该 结构 体 里 面 ， 给 每 个 线 
程 分 配 一 个 cpu_workqueue_struct， 因 而 也 就 是 给 每 个 处 理 器 分 配 一 个 ， 因 为 每 个 处 理 器 都 有 一 
个 该 类 型 的 工作 者 线程 。 
2. 表示 工作 的 数据 结构 
所 有 的 工作 者 线程 都 是 用 普通 的 内 核 线程 实现 的 ， 它 们 都 要 执行 worker_thread0 函数 。 在 
它 初 始 化 完 以 后 ， 这 个 函数 执行 一 个 死 循 环 并 开始 休眠 。 当 有 操作 被 插入 到 队列 里 的 时 候 ， 线 程 
就 会 被 唤醒 ， 以 便 执行 这 些 操作 。 当 没有 剩余 的 操作 时 ， 它 又 会 继续 休 眼 。 
工作 用 <linux/workqueue.h> 中 定义 的 work struct 结构 体 表 示 : 
struct work_ struct { 
atomic long t data; 
struct list head entry; 


work_func t func; 


}; 


这 些 结构 体 被 连接 成 链表 ， 在 每 个 处 理 器 上 的 每 种 类 型 的 队列 都 对 应 这 样 一 个 链表 。 比 如 ， 
每 个 处 理 器 上 用 于 执行 被 推 后 的 工作 的 那个 通用 线程 就 有 一 个 这 样 的 链表 。 当 一 个 工作 者 线程 被 
唤醒 时 ， 它 会 执行 它 的 链表 上 的 所 有 工作 。 工 作 被 执行 完毕 ， 它 就 将 相应 的 work_struct 对 象 从 
链表 上 移 去 。 当 链表 上 不 再 有 对 象 的 时 候 ， 它 就 会 继续 休眠 。 . 
我 们 可 以 看 一 下 worker_thread0 函数 的 核心 流程 ， 简 化 如 下 : 
for (;;) { 
prepare to wait(&cwq->more work, &wait, TASK INTERRUPTIBLE); 
if (list empty{(&cwq->worklist)) 
Schedule()， 
finish wait(&cwq->more work, &wait); 


run workqueue (cwq); 


} 

该 函数 在 死 循 环 中 完成 了 以 下 功能 : 

1) 线程 将 自己 设置 为 休眠 状态 (state 被 设 成 TASK_INTERRUPTIBLE)， 并 把 自己 加 入 到 
等 待 队列 中 。 

2) 如 果 工 作 链 表 是 空 的 ， 线 程 调用 schedule0 函数 进入 睡眠 状态 。 


3) 如 果 链 表 中 有 对 象 ， 线 程 不 会 睡眠 。 相 反 ， 它 将 自己 设置 成 TASK_RUNNING， 脱 离 等 
待 队 列 。 


4) 如 果 链 表 非 空 ， 调 用 run_workqueue0 函数 执行 被 推 后 的 工作 。 
下 一 步 ， 由 mun_workqueue0 函数 来 实际 完成 推 后 到 此 的 工作 : 


下 二 遍布 挫 后 抠 疗 皇 工 作 123 





while (!list empty(&cwq->worklist)) { 
struct work struct *work; 
work func t f; 
void *data; 


work = list entry(cwq->worklist.next, struct work struct, entry); 
i 
work clear pending{(work); 
f{(work); 
} 
该 函数 循环 遍历 链表 上 每 个 待 处 理 的 工作 ， 执 行 链表 每 个 节点 上 的 workqueue_struct 9 中 的 
func 成 员 函 数 : 
1) 当 链 表 不 为 空 时 ， 选 取 下 一 个 节点 对 象 。 
2) 获取 我 们 希望 执行 的 函数 func 及 其 参数 data。 
3) 把 该 节点 从 链表 上 解 下 来 ， 将 待 处 理 标 志 位 pending 清 零 。 
4) 调用 函数 。 
5) 重复 执行 。 
3. 工作 队列 实现 机 制 的 总 结 
这 些 数据 结构 之 间 的 关系 确实 让 人 觉得 混乱 ， 难 以 理 清 头绪 。 图 8-1 给 出 了 示意 图 ， 把 所 有 
这 些 关 系 放 在 一 起 进行 解释 。 


工作 者 级 程 ] < jaremr 
ET 


2 





/ | 
/ rr 





每 个 延迟 函数 有 一 个 





图 8-1 工作 (work)、 工 作 队 列 和 工作 者 线程 之 间 的 关系 
位 于 最 高 一 层 的 是 工作 者 线程 。 系 统 允 许 有 多 种 类 型 的 工作 者 线程 存在 。 对 于 指定 的 一 个 类 


日 。 应 该 是 work_struct。 一 一 译 者 注 
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型 ， 系 统 的 每 个 CPU 上 都 有 一 个 该 类 的 工作 者 线程 。 内 核 中 有 些 部 分 可 以 根据 需要 来 创建 工作 
者 线程 ， 而 在 默认 情况 下 内 核 只 有 event 这 一 种 类 型 的 工作 者 线程 。 每 个 工作 者 线程 都 由 一 个 cpu_ 
workequeue_struct 结构 体 表示 。 而 Workqueue_struct 结构 体 则 表示 给 定 类 型 的 所 有 工作 者 线程 。 

例如 ， 除 系统 默认 的 通用 events 工作 者 类 型 之 外 ， 我 自己 还 加 入 了 一 种 falcon 工作 者 类 型 。 
并 且 使 用 的 是 一 个 拥有 四 个 处 理 器 的 计算 机 。 那 么 ， 系 统 中 现在 有 四 个 event 类 型 的 线程 (因而 
也 就 有 四 个 cpu_workqueue struct 结构 体 ) 和 四 个 falcon 类 型 的 线程 〈 因 而 会 有 另外 四 个 cpu_ 
workqueue_struct 结构 体 )。 同 时 ， 有 一 个 对 应 event 类 型 的 workqueue struct 和 一 个 对 应 falcon 
类 型 的 workqueue_struct。 

工作 处 于 最 底层 ， 让 我 们 从 这 里 开始 。 你 的 驱动 程序 创建 这 些 需要 推 后 执行 的 工作 SS。 它们 
用 work_struct 结构 来 表示 。 这 个 结构 体 中 最 重要 的 部 分 是 一 个 指针 ， 它 指向 一 个 函数 ， 而 正 是 
该 函数 负责 处 理 需 要 推 后 执行 的 具体 任务 。 工 作 会 被 提交 给 某 个 具体 的 工作 者 线程 一 一 在 这 种 情 
况 下 ， 就 是 特殊 的 falcon 线程 。 然 后 这 个 工作 者 线程 会 被 唤醒 并 执行 这 些 排 好 的 工作 。 

大 部 分 驱动 程序 都 使 用 的 是 现存 的 默认 工作 者 线程 。 它 们 使 用 起 来 简单 、 方 便 。 可 是 ， 在 有 
些 要 求 更 严格 的 情况 下 ， 驱 动 程序 需要 自己 的 工作 者 线程 。 比 如 说 XFS 文件 系统 就 为 自己 创建 
了 两 种 新 的 工作 者 线程 。 


8.4.2 ”使 用 工作 队列 


工作 队列 的 使 用 非常 简单 。 我 们 先 来 看 一 下 缺 省 的 events 任务 队列 ， 然 后 再 看 看 创建 新 的 
工作 者 线程 。 

1. 创建 推 后 的 工作 

首先 要 做 的 是 实际 创建 一 些 需要 推 后 完成 的 工作 。 可 以 通过 DECLARE WORK 在 编译 时 静 
态 地 建 该 结构 体 : 

DECLARE_ WORK (name, void (*func) (void *), void *data); 

这 样 就 会 静态 地 创建 一 个 名 为 name， 处 理 函 数 为 fqnc， 参 数 为 data 的 work_struct 结构 体 。 

同样 ， 也 可 以 在 运行 时 通过 指针 创建 一 个 工作 : 

INIT WORK(struct work struct *work, void(*func) (void *), void *data); 

这 会 动态 地 初始 化 一 个 由 work 指向 的 工作 ， 处 理 函数 为 unc， 参 数 为 data。 

2. 工作 队列 处 理 函 数 

工作 队列 处 理 函 数 的 原型 是 : 

void work handler (void *data) 

这 个 函数 会 由 一 个 工作 者 线程 执行 ， 因 此 ， 函 数 会 运行 在 进程 上 下 文中 。 默 认 情 况 下 ， 人 允许 
响应 中 断 ， 并 且 不 持 有 任何 锁 。 如 果 需 要 ， 函 数 可 以 睡 卢 。 需 要 注意 的 是 ， 尽 管 操作 处 理 函 数 运 
行 在 进程 上 下 文中 ， 但 它 不 能 访问 用 户 空间 ， 因 为 内 核 线程 在 用 户 空间 没有 相关 的 内 存 映射 。 通 


日 ”、 这 其 实 可 以 理解 成 用 “工作 ”这 种 接口 封装 我 们 实际 需要 推 后 的 工作 ， 以 便 后 续 的 工作 者 线程 处 理 。 一 一 译 者 注 
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常 在 发 生 系统 调用 时 ， 内 核 会 代表 用 户 空 间 的 进程 运行 ， 此 时 它 才 能 访问 用 户 空间 ， 也 只 有 在 此 
时 它 才 会 映射 用 户 空间 的 内 存 。 

在 工作 队列 和 内 核 其 他 部 分 之 间 使 用 锁 机 制 就 像 在 其 他 的 进程 上 下 文中 使 用 锁 机 制 一 样 方 
便 。 这 使 编写 处 理 函 数 变 得 相对 容易 。 第 9 章 和 第 10 章 会 讨论 到 锁 机 制 。 

3. 对 工作 进行 调度 

现在 工作 已 经 被 创建 ， 我 们 可 以 调度 它 了 。 想 要 把 给 定 工作 的 处 理 函 数 提交 给 缺 省 的 events 
工作 线程 ， 只 需 调用 : 


schedule work (&work). 


work 马上 就 会 被 调度 ， 一 旦 其 所 在 的 处 理 器 上 的 工作 者 线程 被 唤醒 ， 它 就 会 被 执行 。 
有 时 候 你 并 不 希望 工作 马上 就 被 执行 ， 而 是 希望 它 经 过 一 段 延迟 以 后 再 执行 。 在 这 种 情况 
下 ， 你 可 以 调度 它 在 指定 的 时 间 执 行 : 


schedule delayed work (&work, delay); 


这 时 ， 久 work 指向 的 work_struct 直到 delay 指定 的 时 钟 节拍 用 完 以 后 才 会 执行 。 在 第 10 章 
将 介绍 这 种 使 用 时 钟 节拍 作为 时 间 单 位 的 方法 。 

4. 刷新 操作 

排 和 队列 的 工作 会 在 工作 者 线程 下 一 次 被 唤醒 的 时 候 执行 。 有 时 ， 在 继续 下 一 步 工作 之 前 ， 
你 必须 保证 一 些 操作 已 经 执行 完毕 了 。 这 一 点 对 模块 来 说 就 很 重要 ， 在 印 载 之 前 ， 它 就 有 可 能 需 
要 调用 下 面 的 函数 。 而 在 内 核 的 其 他 部 分 ， 为 了 防止 竞争 条 件 的 出 现 ， 也 可 能 需要 确保 不 再 有 待 
处 理 的 工作 。 

出 于 以 上 目的 ， 内 核准 备 了 一 个 用 于 刷新 指定 工作 队列 的 函数 : 


void flush_ scheduled work (void); 


函数 会 一 直 等 待 ， 直 到 队列 中 所 有 对 象 都 被 执行 以 后 才 返 回 。 在 等 待 所 有 待 处 理 的 工作 执行 
的 时 候 ， 该 函数 会 进入 休眠 状态 ， 所 以 只 能 在 进程 上 下 文中 使 用 它 。 

注意 ， 该 函数 并 不 取消 任何 延迟 执行 的 工作 。 就 是 说 ， 任 何 通过 schedule_delayed_work0 调 
度 的 工作 ， 如 果 其 延迟 时 间 未 结束 ， 它 并 不 会 因为 调用 flush_scheduled_work0 而 被 刷新 掉 。 取 
消 延迟 执行 的 工作 应 该 调用 : 


int cancel delayed work(struct work struct *work) 


这 个 函数 可 以 取消 任何 与 work_struct 相关 的 挂 起 工作 。 

5. 创建 新 的 工作 队列 

如 果 缺 省 的 队列 不 能 满足 你 的 需要 ， 你 应 该 创建 一 个 新 的 工作 队列 和 与 之 相应 的 工作 者 线 
程 。 由 于 这 么 做 会 在 每 个 处 理 器 上 都 创建 一 个 工作 者 线程 ， 所 以 只 有 在 你 明确 了 必须 要 靠 自己 的 
一 套 线程 来 提高 性 能 的 情况 下 ， 再 创建 自己 的 工作 队列 。 

创建 一 个 新 的 任务 队列 和 与 之 相关 的 工作 者 线程 ， 你 只 需 调 用 一 个 简单 的 函数 : 


struct workqueue struct *create workqueue{(const char *name); 
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name 参数 用 于 该 内 核 线程 的 命名 。 比 如 ， 缺 省 的 events 队列 的 创建 就 调用 的 是 : 


struct workqueue struct *keventd wq ; 
keventd wq = create workqueue ("events"); 


这 样 就 会 创建 所 有 的 工作 者 线程 (系统 中 的 每 个 处 理 器 都 有 一 个 )， 并 且 做 好 所 有 开始 处 理 
工作 之 前 的 准备 工作 。 

创建 一 个 工作 的 时 候 无 须 考虑 工作 队列 的 类 型 。 在 创建 之 后 ， 可 以 调用 下 面 列举 的 函数 。 这 
些 消 数 与 schedule work0 以 及 schedule_delayed_work( 相近 ， 唯 一 的 区 别 就 在 于 它们 针对 给 定 
的 工作 队列 而 不 是 缺 省 的 events 队列 进行 操作 。 


int queue work(struct workqueue struct *wq, struct work struct *work) 


int queue delayed work(struct workqueue struct *wq, 
struct work_struct *work, 
unsigned long delay) 


最 后 ， 你 可 以 调用 下 面 的 函数 刷新 指定 的 工作 队列 : 


flush_workqueue (Struct workqueue struct *wq); 


该 函数 和 前 面 讨论 过 的 flush_scheduled_work0 作用 相同 ， 只 是 它 在 返回 前 等 待 清空 的 是 给 
定 的 队列 。 


8.4.3 老 的 任务 队列 机 制 


像 BH 接口 被 软 中 断 和 tasklet 代替 一 样 ， 由 于 任务 队列 接口 存在 的 种 种 缺陷 ， 它 也 被 工作 
队列 接口 取代 了 。 像 tasklet 一 样 ， 任 务 队 列 接口 (内 核 中 常常 称 作 tq〉 其 实 也 和 进程 没有 什么 
相关 之 处 9。 任务 队列 接口 的 使 用 者 在 2.5 开发 版 中 分 为 两 部 分 ， 其 中 一 部 分 转向 了 使 用 tasklet， 
还 有 另外 一 部 分 继续 使 用 任务 队列 接口 。 而 目前 任务 队列 接口 剩余 的 部 分 已 经 演化 成 了 工作 队列 
接口 。 由 于 任务 队列 在 内 核 中 曾经 使 用 过 一 段 时 间 ， 出 于 了 解 历史 的 目的 ， 我 们 对 它 进行 一 个 大 
体 回 顾 。 
任务 队列 机 制 通过 定义 一 组 队列 来 实现 其 功能 。 每 个 队列 都 有 自己 的 名 字 ， 比 如 调度 程序 队 
列 、 立 即 队 列 和 定时 器 队列 。 不 同 的 队列 在 内 核 中 的 不 同 场合 使 用 。keventd 内 核 线程 负责 执行 
调度 程序 队列 的 相关 任务 。 它 是 整个 工作 队列 接口 的 先驱 。 定 时 器 队列 会 在 系统 定时 器 的 每 个 时 
闻 节 拍 时 执行 ， 而 立即 队列 能 够 得 到 双 倍 的 运行 机 会 ， 以 保证 它 能 “立即 ”执行 。 当 然 ， 还 有 其 
他 一 些 队列 。 此 外 ， 你 还 可 以 动态 地 创建 自己 的 新 队列 。 

这 些 听 起 来 都 挺 有 用 ， 但 任务 队列 接口 实际 上 是 一 团 乱 麻 。 这 些 队 列 基本 上 都 是 些 随意 创建 
的 抽象 概念 , 散落 在 内 核 各 处 ， 就 像 球 散在 空气 中 。 唯 有 调度 队列 有 点 意义 ， 它 能 用 来 把 工作 推 
后 到 进程 上 下 文 完成 。 

任务 队列 的 另 一 好 处 就 是 接口 特别 简单 。 如 果 不 考虑 这 些 队列 的 数量 和 执行 时 随心 所 欲 的 规 


日 下 半 部 的 各 种 命名 简直 可 以 算得 上 是 迷惑 内 核 开发 新 手 的 撒手 钢 。 老 实说 ， 这 些 名 字 简 直 就 是 杜 梦 ! 
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则 ， 它 的 接口 确实 够 简单 。 但 这 也 就 是 全 部 意义 所 在 了 一 一 任务 队列 剩 下 的 东西 乏善可陈 。 

许多 任务 队列 接口 的 使 用 者 都 已 经 转向 使 用 其 他 的 下 半 部 实现 机 制 了 ， 大 部 分 选择 了 
tasklet， 只 有 调度 程序 队列 的 使 用 者 在 昔 苦 支撑 。 最 终 ，keventd 代码 演化 成 了 我 们 今天 使 用 的 工 
作 队列 机 制 ， 而 任务 队列 最 终 退 出 了 历史 舞台 。 


8.5 ”下 半 部 机 制 的 选择 


在 各 种 不 同 的 下 半 部 实现 机 制 之 间 做 出 选择 是 很 重要 的 。 在 当前 的 2.6 版 内 核 中 ， 有 三 种 可 
能 的 选择 ; 软 中 断 、tasklet 和 工作 队列 。tasklet 基于 软 中 断 实现 ， 所 以 两 者 很 相近 。 工 作 队 列 机 
制 与 它们 完全 不 同 ， 它 靠 内 核 线程 实现 。 

从 设计 的 角度 考虑 ， 软 中 断 提 供 的 执行 序列 化 的 保障 最 少 。 这 就 要 求 软 中 断 处 理 函 数 必 须 格 
外 小 心地 采取 一 些 步骤 确保 共享 数据 的 安全 ， 两 个 甚至 更 多 相同 类 别 的 软 中 断 有 可 能 在 不 同 的 处 
理 器 上 同时 执行 。 如 果 被 考察 的 代码 本 身 多 线索 化 的 工作 就 做 得 非常 好 ， 比 如 网 络 子 系统 ， 它 完 
全 使 用 单 处 理 器 变量 ， 那 么 软 中 断 就 是 非常 好 的 选择 。 对 于 时 间 要 求 严 格 和 执行 频率 很 高 的 应 用 
来 说 ， 它 执行 得 也 最 快 。 

如 果 代 码 多 线索 化 考虑 得 并 不 充分 ， 那 么 选择 tasklet 意义 更 大 。 它 的 接口 非常 简单 ， 而 且 ， 
由 于 两 个 同 种 类 型 的 tasklet 不 能 同时 执行 ， 所 以 实现 起 来 也 会 简单 一 些 。tasklet 是 有 效 的 软 中 断 ， 
但 不 能 并 发 运行 。 驱 动 程序 开发 者 应 当 尽 可 能 选择 tasklet 而 不 是 软 中 断 ， 当 然 ， 如 果 准 备 利 用 
每 一 处 理 器 上 的 变量 或 者 类 似 的 情形 ， 以 确保 软 中 新 能 安全 地 在 多 个 处 理 器 上 并 发 地 运行 ， 那 么 
还 是 选择 软 中 断 。 

如 果 你 需要 把 任务 推 后 到 进程 上 下 文中 完成 ， 那 么 在 这 三 者 中 就 只 能 选择 工作 队列 了 。 如 果 
进程 上 下 文 并 不 是 必须 的 条 件 〈 明 确 点 说 ， 就 是 如 果 并 不 需要 睡眠 )， 那 么 软 中 断 和 tasklet 可 能 
更 合适 。 工 作 队 列 造成 的 开销 最 大 ， 因 为 它 要 牵扯 到 内 核 线 程 甚至 是 上 下 文 切换 。 这 并 不 是 说 工 
作 队 列 的 效率 低 ， 如 果 每 秒 钟 有 几 千 次 中 断 ， 就 像 网 络 子 系统 时 常 经 历 的 那样 ， 那 么 采用 其 他 的 
机 制 可 能 更 合适 一 些 。 尽 管 如 此 ， 针 对 大 部 分 情况 ， 工 作 队 列 都 能 提供 足够 的 支持 。 

如 果 讲 到 易于 使 用 ， 工 作 队 列 就 当仁不让 了 。 使 用 缺 省 的 events 队列 简直 不 费 吹 灰 之 力 。 
接 下 来 是 tasklet， 它 的 接口 也 很 简单 。 最 后 才 是 软 中 断 ， 它 必须 静态 创建 ， 并 且 需 要 慎重 考虑 其 
实现 。 

表 8-3 是 对 三 种 下 半 部 接口 的 比较 。 


表 8-3 对 下 半 部 的 比较 








顺序 执行 保障 






tasklet 
工作 队列 





同类 型 不 能 同时 执行 
没有 《〈 和 进程 上 下 文 一 样 被 调度 ) 


简单 地 说 ， 一 般 的 驱动 程序 的 编写 者 需要 做 两 个 选择 。 首 先 ， 你 是 不 是 需要 一 个 可 调度 的 实 
体 来 执行 需要 推 后 完成 的 工作 一 一 从 根本 上 来 说 ， 你 有 休 卢 的 需要 吗 ? 要 是 有 ， 工 作 队列 就 是 你 
的 唯一 选择 。 否 则 最 好 用 tasklet。 要 是 必须 专注 于 性 能 的 提高 ， 那 么 就 考虑 软 中 断 吧 。 
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8.6 在 下 半 部 之 间 加 锁 


到 现在 为 止 ， 我 们 还 没 讨论 过 锁 机 制 ， 这 是 一 个 非常 有 趣 且 广 泛 的 话题 ， 我 将 在 第 9 章 和 第 
10 章 里 仔细 讨论 它 。 不 过 ， 在 这 里 还 是 应 该 对 它 的 重要 性 有 所 了 解 : 在 使 用 下 半 部 机 制 时 ， 即 
使 是 在 一 个 单 处 理 器 的 系统 上 ， 避 免 共 享 数 据 被 同时 访问 也 是 至 关 重 要 的 。 记 住 ， 一 个 下 半 部 实 
际 上 可 能 在 任何 时 候 执行 。 如 果 你 对 锁 机 制 一 无 所 知 的 话 ， 你 也 可 以 在 读 完 第 9 章 和 第 10 章 以 
后 再 回 过 头 来 看 这 部 分 。 

使 用 tasklet 的 一 个 好 处 在 于 ， 它 自己 负责 执行 的 序列 化 保障 : 两 个 相同 类 型 的 tasklet 
不 允许 同时 执行 ， 即 使 在 不 同 的 处 理 器 上 也 不 行 。 这 意味 着 你 无 须 为 intra-tasklet 日 的 同步 问 
题 操心 了 。tasklet 之 间 的 同步 〈 就 是 当 两 个 不 同类 型 的 tasklet 共享 同一 数据 时 ) 需要 正确 使 
用 锁 机 制 。 

如 果 进 程 上 下 文 和 一 个 下 半 部 共享 数据 ， 在 访问 这 些 数据 之 前 ， 你 需要 禁止 下 半 部 的 处 理 并 
得 到 锁 的 使 用 权 。 做 这 些 是 为 了 本 地 和 SMP 的 保护 并 且 防 止 死 锁 的 出 现 。 

如 果 中 断 上 下 文 和 一 个 下 半 部 共享 数据 ， 在 访问 数据 之 前 ， 你 需要 禁止 中 断 并 得 到 锁 的 使 用 
权 。 所 做 的 这 些 也 是 为 了 本 地 和 SMP 的 保护 并 且 防 止 死 锁 的 出 现 。 

任何 在 工作 队列 中 被 共享 的 数据 也 需要 使 用 锁 机 制 。 其 中 有 关 锁 的 要 点 和 在 一 般 内 核 代码 中 
没什么 区 别 ， 因 为 工作 队列 本 来 就 是 在 进程 上 下 文中 执行 的 。 

在 第 9 章 里 ， 我 们 会 揭示 锁 的 奥妙 。 而 在 第 10 章 中 ， 我 们 将 讲述 内 核 的 加 锁 原 语 。 这 两 章 
会 描述 如 何 保护 下 半 部 使 用 的 数据 。 


8.7 ”禁止 下 半 部 


一 般 单 纯 禁 止 下 半 部 的 处 理 是 不 够 的 。 为 了 保证 共享 数据 的 安全 ， 更 常见 的 做 法 是 ， 先 得 到 
一 个 锁 然 后 再 禁止 下 半 部 的 处 理 。 驱 动 程序 中 通常 使 用 的 都 是 这 种 方法 ， 在 第 10 章 会 详细 介绍 。 
然而 ， 如 果 你 编写 的 是 内 核 的 核心 代码 ， 你 也 可 能 仅 需要 禁止 下 半 部 就 可 以 了 。 

如 果 需 要 禁止 所 有 的 下 半 部 处 理 〈 明 确 点 说 ， 就 是 所 有 的 软 中 断 和 所 有 的 tasklet)， 可 以 调 
用 local_bh_diasble0 函数 。 允 许 下 半 部 进行 处 理 ， 可 以 调用 local bh_enable0 函数 。 没 错 ， 这 些 函 
数 的 命名 也 有 问题 ; 可 是 既然 BH 接口 早 就 让 位 给 软 中 断 了 ， 那 么 谁 又 会 去 改 这 些 名 称 呢 ? 表 8-4 
是 这 些 函 数 的 一 份 摘要 。 


表 8-4 下 半 部 机 制 控制 函数 的 清单 


函数 
void local_bh_disableO 
void local_ bh_enable() 


撕 述 
禁止 本 地 处 理 器 的 软 中 断 和 tasklet 的 处 理 
激活 本 地 处 理 器 的 软 中 断 和 tasklet 的 处 理 





这 些 函 数 有 可 能 被 嵌 套 使 用 一 一 最 后 被 调用 的 local_bh_enable0 最 终 激 活 下 半 部 。 比 如 ， 第 
一 次 调用 local bh disableO0， 则 本 地 软 中 断 处 理 被 禁止 ; 如 果 local bh_disable0 被 调用 三 次 ， 则 


9 ”这 个 词语 是 我 造 的 。 一 一 译 者 注 
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本 地 处 理 仍然 被 禁止 ; 只 有 当 第 四 次 调用 local_bh_enableO 时 ， 软 中 断 处 理 才 被 重新 激活 。 
函数 通过 preempt_count (很 有 意思 ， 还 是 这 个 计数 器 ， 内 核 抢占 的 时 候 用 的 也 是 它 ) 为 每 
个 进程 维护 一 个 计数 器 9。 当 计数 器 变 为 0 时 ， 下 半 部 才能 够 被 处 理 。 因 为 下 半 部 的 处 理 已 经 被 
禁止 ， 所 以 local_bh_enable0 还 需要 检查 所 有 现存 的 待 处 理 的 下 半 部 并 执行 它们 。 
这 些 函 数 与 硬件 体系 结构 相关 ， 它 们 位 于 <asm/softirq.h> 中 ， 通 常 由 一 些 复杂 的 宏 实 现 。 下 
面 是 为 那些 好 奇 的 人 准备 了 C 语言 的 近似 描述 : 


寅 


* 通过 增加 Preempt_count 禁止 本 地 下 半 部 
*/ 


void local bh disable(void) 
{ 
struct thread info *t = current thread info(); 
t->preempt count += SOFTIRQ OFFSET; 
} 
/* 
* * 减少 preempt_count 如 果 该 返回 值 为 0， 将 导致 自动 激活 下 半 部 


fT 
2 Local_bh enable (void) 


struct thread info *t = current thread info(); 
t->preempt_count -= SOFTIRQ OFFSET; 
fe 


* ”preempt_count 是 否 为 0， 另 外 是 否 有 挂 起 的 下 半 部 ， 如 果 都 满足 ， 则 执行 待 执 

* 行 的 下 半 部 

*/ 

if (unlikely(!t->preempt count && softirqg pending (smp_processor_ id()))) 
do_softirqg(); 

} 

这 些 函数 并 不 能 禁止 工作 队列 的 执行 。 因 为 工作 队列 是 在 进程 上 下 文中 运行 的 ， 不 会 涉及 
异步 执行 的 问题 ， 所 以 也 就 没有 必要 禁止 它们 执行 。 由 于 软 中 断 和 tasklet 是 异步 发 生 的 (就 是 
说 ， 在 中 断 处 理 返 回 的 时 候 )， 所 以 ， 内 核 代码 必 须 禁 止 它们 。 另 一 方面 ， 对 于 工作 队列 来 说 ， 
它 保护 共享 数据 所 做 的 工作 和 其 他 任何 进程 上 下 文中 所 做 的 都 差不多 。 第 9 章 和 第 10 章 将 揭 
示 其 中 的 细节 。 


8.8 小结 


在 本 章 中 ， 我 们 涵盖 了 用 于 延迟 Linux 内 核 工作 的 三 种 机 制 : 软 中 断 、tasklet 和 工作 队列 。 
我 们 考察 了 其 设计 和 实现 ， 讨 论 了 如 何 把 这 些 机 制 应 用 到 代码 中 ， 也 调侃 了 易于 混 洋 的 命名 。 为 
了 完整 起 见 ， 我 们 也 考察 了 曾经 的 下 半 部 机 制 : BH 和 任务 队列 一 一 这 些 用 在 以 前 的 Linux 内 核 
版 本 中 。 


日 实际 上 ， 中 断 和 下 半 部 子 系统 都 用 到 了 这 个 计数 器 。 其 实 ， 在 Linux 中 ， 每 个 任务 都 有 的 单个 计数 器 代表 了 
任务 的 原子 性 。 在 类 似 调 试 sleeping-while-atomic 之 类 的 错误 时 ， 这 种 做 法 已 被 证 明 是 非常 有 效 的 。 
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因为 下 半 部 中 相当 程度 地 用 到 了 同步 和 并 发 ， 所 以 本 章 谈 了 很 多 相关 的 话题 。 我 们 其 
至 围绕 本 章 还 讨论 了 禁止 下 半 部 的 问题 ， 这 是 由 并 发 保护 引起 的 ， 这 一 话题 到 此 只 是 刚刚 
引入 。 第 9 章 将 从 理论 上 讨论 内 核 同 步 和 并 发 ， 为 理解 这 一 问题 的 本 质 打 下 基础 。 第 10 章 
将 讨论 我 们 心爱 的 内 核 为 解决 这 一 问题 所 提供 的 具体 接口 。 以 这 两 章 为 基石 ， 你 的 梦想 就 
得 以 实现 。 


第 (9) 章 
内 核 同 步 介 绍 


在 使 用 共享 内 存 的 应 用 程序 中 ， 程 序 员 必 须 特 别 留意 保护 共享 资源 ， 防 止 共享 资源 并 发 访 
问 。 内 核 也 不 例外 。 共 享 资 源 之 所 以 要 防止 并 发 访问 ， 是 因为 如 果 多 个 执行 线程 同时 访问 和 操 
作 数 据 ， 就 有 可 能 发 生 各 线程 之 间 相 互 覆盖 共享 数据 的 情况 ， 造 成 被 访问 数据 处 于 不 一 致 状态 。 
并 发 访问 共享 数据 是 造成 系统 不 稳定 的 一 类 隐患 ， 而 且 这 种 错误 一 般 难 以 跟踪 和 调试 一 一 所 以 首 
先 应 该 认识 到 这 个 问题 的 重要 性 。 

要 做 到 对 共享 资源 的 恰当 保护 往往 很 困难 。 多 年 之 前 ， 在 Linux 还 未 支持 对 称 多 处 理 器 的 
时 候 ， 避 免 并 发 访问 数据 的 方法 相对 来 说 比较 简单 。 在 单一 处 理 器 的 时 候 ， 只 有 在 中 断 发 生 的 时 
候 ， 或 在 内 核 代码 明确 地 请 求 重 新 调度 、 执 行 男 一 个 任务 的 时 候 ， 数 据 才 可 能 被 并 发 访问 。 因 
此 早期 内 核 开 发 工作 相 比 如 今 要 简单 许多 ! 

但 当年 的 太平 日 子 一 去 不 复 返 了 ， 从 2.0 版 开始 ， 内 核 就 开始 支持 对 称 多 处 理 器 了 ， 而 且 从 
那 以 后 对 它 的 支持 不 断 地 加 强 和 完善 。 支 持 多 处 理 器 意味 着 内 核 代码 可 以 同时 运行 在 两 个 或 更 多 
的 处 理 器 上 。 因 此 ， 如 果 不 加 保护 ， 运 行 在 两 个 不 同 处 理 器 上 的 内 核 代码 完全 可 能 在 同一 时 刻 里 
并 发 访问 共享 数据 。 随 着 2.6 版 内 核 的 出 现 ，Linux 内 核 已 发 展 成 抢占 式 内 核 ， 这 意味 着 (当然 ， 
还 是 指 不 加 保护 的 情况 下 ) 调度 程序 可 以 在 任何 时 刻 抢 占 正在 运行 的 内 核 代码 ， 重 新 调度 其 他 的 
进程 执行 。 现 在 ， 内 核 代 码 中 有 不 少 部 分 都 能 够 同步 执行 ， 而 它们 都 必须 妥善 地 保护 起 来 。 

本 章 我 们 先 提纲 者 领 式 地 讨论 操作 系统 内 核 中 的 并 发 和 同步 问题 ， 第 10 章 我 们 将 详细 介绍 
Linux 内 核 为 解决 同步 问题 和 防止 产生 竞争 条 件 而 提供 的 机 制 及 接口 。 


9.1 临界 区 和 竞争 条 件 


所 谓 临界 区 《〈 也 称 为 临界 段 ) 就 是 访问 和 操作 共享 数据 的 代码 段 。 多 个 执行 线程 并 发 访问 
同一 个 资源 通常 是 不 安全 的 ， 为 了 避免 在 临界 区 中 并 发 访问 ， 编 程 者 《也 就 是 你 ) 必须 保证 这 
些 代码 原子 地 执行 一 一 也 就 是 说 ， 操 作 在 执行 结束 前 不 可 被 打 断 ， 就 如 同 整 个 临界 区 是 一 个 
不 可 分 割 的 指令 一 样 。 如 果 两 个 执行 线程 有 可 能 处 于 同一 个 临界 区 中 同时 执行 ， 那 么 这 就 是 
程序 包含 的 一 个 bug。 如 果 这 种 情况 确实 发 生 了 ， 我 们 就 称 它 是 竞争 条 件 (race conditions)， 这 
样 命名 是 因为 这 里 会 存在 线程 竞争 。 这 种 情况 出 现 的 机 会 往往 非常 小 一 一 就 是 因为 竞争 引起 
的 错误 非常 不 易 重 现 ， 所 以 调试 这 种 错误 才 会 非常 困难 。 避 免 并 发 和 防止 竞争 条 件 称 为 同步 


(synchronization ) 。 





日 、 术语 执行 线程 (thread execution) 指 任何 正在 执行 的 代码 实例 ， 比 如 ， 一 个 在 内 核 执行 的 进程 、 一 个 中 断 处 理 
程序 或 一 个 内 核 线程 。 在 本 章 中 将 执行 线程 简称 为 线程 ， 记 住 ， 这 个 术语 指 代 的 是 任何 正在 执行 的 代码 。 
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9.1.1 为 什么 我 们 需要 保护 


为 了 认 清 同步 的 必要 性 ， 我 们 首先 要 明白 临界 区 无 处 不 在 。 作 为 第 一 个 例子 ， 让 我 们 考察 一 
个 现实 世界 的 情况 : ATM (自动 柜员 机 ， 或 叫 自动 提 款 机 )。 

自动 提 款 机 所 进行 的 主要 操作 就 是 从 个 人 银行 账户 取 钱 。 某 人 走 到 机 器 前 ， 插 入 ATM 卡 ， 
输入 密码 作为 验证 ， 选 择 取款 ,输入 金额 ， 敲 确认 ， 取 出 钱 ， 然 后 发 信息 通知 本 人 。 

当 用 户 要 求 取 某 一 特定 的 金额 后 ， 提 款 机 需要 确保 在 其 账户 上 的 确 有 那么 多 钱 。 如 果 有 ， 取 
款 机 就 要 从 现 有 的 总 额 中 扣除 取款 额 。 实 现 这 一 描述 的 代码 如 下 : 

int total = get total from account () ; /* 账户 上 的 总 额 */ 


int withdrawal = get_withdrawal amount (); /* 用 户 要 求 的 取款 额 */ 


/* 检查 用 户 账户 上 是 否 有 足够 的 金额 */ 

if (total < withdrawal) { 
error("You do not have that much money!") 
return -1; 


} 
/* 好 啦 ， 用 户 有 足够 的 金额 ， 从 总 额 中 扣除 取款 额 */ 


total -= withdrawal; 
update total funds{(total); 


/* 把 钱 给 用 户 */ 

spit_out_ money (withdrawal); 

现在 让 我 们 假定 在 用 户 账户 上 的 另 一 个 扣 款 操作 同时 发 生 。 看 看 扣 款 是 如 何 同时 发 生 的 : 假 
定 用 户 的 配偶 在 另 一 台 AIM 上 开始 另外 的 取款 ; 而 这 和 上 述 扣 款 同时 进行 一 一 或 者 以 电子 形式 
从 账户 转 出 资金 ， 或 者 是 银行 从 账户 上 扣除 某 一 费用 (因为 现在 的 银行 总 是 这 么 干 )， 或 者 是 其 
他 任何 形式 的 扣 款 。 

正在 取款 的 两 个 系统 都 会 执行 我 们 刚刚 看 到 的 类 似 的 代码 : 首先 检查 扣 款 是 否 可 能 ， 然 后 
计算 新 的 总 额 ， 最 后 进行 实际 的 扣 款 。 现 在 让 我 们 虚拟 一 些 数字 。 假 定 第 一 次 从 ATM 扣 款 额 是 
$100， 第 二 次 扣除 银行 申请 费 $10 一 一 因为 客户 走 和 人 了 银行 。 假 定 客户 在 银行 总 共有 $105。 显 
然 ， 如 果 账 户 不 出 现 赤字 ， 这 两 个 操作 中 有 一 个 就 无 法 完成 。 

你 可 能 希望 发 生 的 顺序 是 这 样 的 : 收费 事务 先 发 生 。$10 小 于 $105， 因 此 ， 从 105 中 减 去 
10 得 到 新 的 总 额 95， 这 $10 就 装 在 银行 的 口袋 里 。 之 后 ，ATM 取款 发 生 ， 但 未 取 到 ， 因 为 $95 
小 于 $100。 

在 竞争 的 环境 下 ， 实 际 生活 可 能 更 有 趣 。 假 定 两 个 事务 几乎 同时 开始 。 两 个 事务 都 验证 是 否 
有 足够 的 金额 存在 : $105 既 大 于 $100 ， 也 大 于 $10， 所 以 ， 两 个 条 件 都 满足 。 于 是 ， 取 款 过 程 
从 $105 减 去 $100， 剩 余 $5。 收 费事 务 也 如 法 炮制 ， 从 $105 减 去 $10， 剩 余 $95。 此 刻 ， 收 费事 
务 也 更 新 新 的 总 额 ， 结 果 得 到 $95。 这 可 是 余额 呀 ! 

显而易见 ， 金 融 机 构 必 须 确保 类 似 情况 决 不 发 生 。 他 们 必须 在 某 些 操作 期 间 对 账户 加 锁 ， 确 
保 每 个 事务 相对 其 他 任何 事务 的 操作 是 原子 性 的 。 这 样 的 事务 必须 完整 地 发 生 ， 要 么 干脆 不 发 
生 ， 但 是 决 不 能 打 断 。 
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9.1.2 单个 变量 


现在 ， 让 我 们 看 一 个 特殊 计算 的 例子 。 考 虑 一 个 非常 简单 的 共享 资源 : 一 个 全 局 整 型 变量 和 
一 个 简单 的 临界 区 ， 其 中 的 操作 仅仅 是 将 整 型 变量 的 值 增加 1。 
该 操作 可 以 转化 成 类 似 于 下 面 动作 的 机 器 指令 序列 : 


得 到 当前 变量 : 的 值 并 且 拷贝 到 一 个 寄存 器 中 

将 寄存 器 中 的 值 加 1 

把 :的 新 值 写 回 到 内 存 中 

现在 假定 有 两 个 执行 线程 同时 进入 这 个 临界 区 ， 如 果 i 的 初始 值 是 7， 那么 ， 我 们 所 期 望 的 
结果 应 该 像 下 面 这 样 〈 每 一 行 代表 一 个 时 间 单元 ) : 


线程 1 线程 2 

获得 i (7) 一 

增加 i (7->8) 一 

写 回 i(8) 一 

一 获得 i (8) 

一 增加 i (8->9) 
= 写 回 i (9) 
正如 所 期 望 的 ，7 被 两 个 线程 分 别 加 1 变 为 9。 但 是 ， 实 际 的 执行 序列 却 可 能 如 下 : 
线程 1 线程 2 

获得 i(7) 获得 研 (7) 
增加 i(7->8) 一 

< 增加 i(7->8) 
写 回 i (8) 二 

二 写 回 i (8) 


如 果 两 个 执行 线程 都 在 变量 i 值 增加 前 读 取 它 的 初 值 ， 进 而 又 分 别 增加 变量 i 的 值 ， 最 后 再 
保存 该 值 ， 那 么 变量 i 的 值 就 变 成 了 8， 而 变量 i 的 值 本 该 是 9 的 。 这 是 最 简单 的 临界 区 例子 ， 
幸好 对 于 这 种 简单 竞争 条 件 的 解决 方法 也 同样 简单 一 一 我 们 仅仅 需要 将 这 些 指令 作为 一 个 不 可 分 
割 的 整体 来 执行 就 万 事 大 吉 了 。 多 数 处 理 器 都 提供 了 指令 来 原子 地 读 变量 、 增 加 变量 ， 然 后 再 写 
回 变量 ， 使 用 这 样 的 指令 就 能 解决 一 些 问题 。 使 用 这 个 原子 指令 唯一 可 能 的 结果 是 : 


线程 1 线程 2 

增加 i (7->8) = 

一 增加 i(8->9) 
或 者 是 相反 : 

线程 1 线程 2 

二 增加 i(7->8) 
增加 i (8->9) = 


两 个 原子 操作 交错 执行 根本 就 不 可 能 发 生 ， 因 为 处 理 器 会 从 物理 上 确保 这 种 不 可 能 。 使 用 
这 样 的 指令 会 缓解 这 种 问题 ， 内 核 也 提供 了 一 组 实现 这 些 原子 操作 的 接口 ， 我 们 将 在 第 10 章 
讨论 它们 。 
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9.2 加 锁 


现在 我 们 来 讨论 一 个 更 为 复杂 的 竞争 条 件 ， 相 应 的 解决 方法 也 更 为 复杂 。 假 设 需 要 处 理 一 
个 队列 上 的 所 有 请 求 。 我 们 假定 该 队列 是 通过 链表 得 以 实现 ， 链 表 中 的 每 个 结 点 就 代表 一 个 请 
求 。 有 两 个 函数 可 以 用 来 操作 此 队列 : 一 个 函数 将 新 请 求 添加 到 队列 尾部 ， 另 一 个 函数 从 队列 头 
删除 请 求 ， 然 后 处 理 它 。 内 核 各 个 部 分 都 会 调用 这 两 个 函数 ， 所 以 内 核 会 不 断 地 在 队列 中 加 入 请 
求 ， 从 队列 中 删除 和 处 理 请 求 。 对 请 求 队 列 的 操作 无 疑 要 用 到 多 条 指令 。 如 果 一 个 线程 试图 读 取 
队列 ， 而 这 时 正好 另 一 个 线程 正在 处 理 该 队列 ， 那 么 读 取 线 程 就 会 发 现 队 列 此 刻 正 处 于 不 一 致 状 
态 。 很 明显 ， 如 果 人 允许 并 发 访问 队列 ， 就 会 产生 危害 。 当 共享 资源 是 一 个 复杂 的 数据 结构 时 ， 竞 
争 条 件 往往 会 使 该 数据 结构 遭 到 破坏 。 

表面 上 看 ， 这 种 情况 好 像 没 有 一 个 好 的 方法 来 解决 ， 一 个 处 理 器 读 取 队 列 的 时 候 ， 我 们 怎么 
能 禁止 另 一 个 处 理 器 更 新 队列 呢 ? 虽然 有 些 体系 结构 提供 了 简单 的 原子 指令 ， 实 现 算术 运算 和 比 
较 之 类 的 原子 操作 ， 但 让 体系 结构 提供 专门 的 指令 ， 对 像 上 例 中 那样 的 不 定 长 度 的 临界 区 进行 保 
护 ， 就 强人 所 难 了 。 我 们 需要 一 种 方法 确保 一 次 有 且 只 有 一 个 线程 对 数据 结构 进行 操作 ， 或 者 当 
另 一 个 线程 在 对 临界 区 标记 时 ， 就 禁止 〈 或 者 说 锁定 ) 其 他 访问 。 

锁 提供 的 就 是 这 种 机 制 : 它 就 如 同一 把 门 锁 ， 门 后 的 房间 可 想象 成 一 个 临界 区 。 在 一 个 指定 
时 间 内 ， 房 间 里 只 能 有 一 个 执行 线程 存在 ， 当 一 个 线程 进入 房间 后 ， 它 会 锁 住 身后 的 房 门 ; 当 它 
结束 对 共享 数据 的 操作 后 ， 就 会 走出 房间 ， 打 开门 锁 。 如 果 另 一 个 线程 在 房 门 上 锁 时 来 了 , 那么 
它 就 必须 等 待 房间 内 的 线程 出 来 并 打开 门 锁 后 ， 才 能 进入 房间 。 这 样 ， 线 程 持 有 锁 ， 而 锁 保护 了 
数据 。 

前 面 例子 中 讲 到 的 请 求 队列 ， 可 以 使 用 一 个 单独 的 锁 进行 保护 。 每 当 有 一 个 新 请 求 要 加 入 队 
列 ， 线 程 会 首先 占 住 锁 ， 然 后 就 可 以 安全 地 将 请 求 加 入 到 队列 中 ， 结 束 操作 后 再 释放 该 锁 ; 同样 
当 一 个 线程 想 从 请 求 队列 中 删除 一 个 请 求 时 ， 也 需要 先 占 住 锁 ， 然 后 才能 从 队列 中 读 取 和 删除 请 
求 ， 而 且 在 完成 操作 后 也 必须 释放 锁 。 任 何 要 访问 队列 的 其 他 线程 也 类 似 ， 必 须 占 住 锁 后 才能 进 
行 操 作 。 因 为 在 一 个 时 刻 只 能 有 一 个 线程 持 有 锁 ， 所 以 在 一 个 时 刻 只 有 一 个 线程 可 以 操作 队列 。 
如 果 一 个 线程 正在 更 新 队列 时 ， 另 一 个 线程 出 现 了 ， 则 第 二 个 线程 必须 等 待 第 一 个 线程 释放 锁 ， 
它 才 能 继续 进行 。 由 此 可 见 锁 机 制 可 以 防止 并 发 执行 ， 并 且 保 护 队 列 不 受 竞争 条 件 的 影响 。 

任何 要 访问 队列 的 代码 首先 都 需要 占 住 相应 的 锁 ， 这 样 该 锁 就 能 阻止 来 自 其 他 执行 线程 的 并 
发 访问 : 


线程 1 线程 2 

试图 锁定 队列 试图 锁定 队列 

成 功 : 获得 镇 失败 : 等 待 … 

访问 队列 … 等 待 … 

为 队列 解除 锁 等 待 … 

四 成 功 : 获得 锁 
访问 队列 … 
为 队列 解除 锁 


请 注意 锁 的 使 用 是 自愿 的 、 非 强制 的 ， 它 完全 属于 一 种 编程 者 自选 的 编程 手段 。 没 有 什么 可 
以 强制 编程 者 在 操作 我 们 虚构 的 队列 时 必须 使 用 锁 。 当 然 ， 如 果 不 这 么 做 ， 无 疑 会 造成 竞争 条 件 
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而 破坏 队列 。 

锁 有 多 种 多 样 的 形式 ， 而 且 加 锁 的 粒度 范围 也 各 不 相同 一 一 Linux 自身 实现 了 几 种 不 同 的 
锁 机 制 。 各 种 锁 机 制 之 间 的 区 别 主 要 在 于 : 当 锁 已 经 被 其 他 线程 持 有 ， 因 而 不 可 用 时 的 行为 表 
现 一 一 一 些 锁 被 争 用 时 会 简单 地 执行 忙 等 待 S， 而 另外 一 些 锁 会 使 当前 任务 睡眠 直到 锁 可 用 为 
止 。 第 10 章 我 们 将 讨论 Linux 中 不 同 锁 之 间 的 行为 差别 及 它们 的 接口 。 

机 灵 的 读者 此 时 会 尖 叫 起 来 ， 锁 根本 解决 不 了 什么 问题 ， 它 只 不 过 是 把 临界 区 缩小 到 加 锁 和 
开锁 之 间 〈 也 许 更 小 ) 的 代码 ， 但 是 仍然 有 潜在 的 竞争 ! 所 幸 ， 锁 是 采用 原子 操作 实现 的 ， 而 原 
子 操 作 不 存在 竞争 。 单 一 指令 可 以 验证 它 的 关键 部 分 是 否 抓 住 ， 如 果 没 有 的 话 ， 就 抓 住 它 。 其 实 
现 是 与 具体 的 体系 结构 密切 相关 的 ， 但 是 ， 几 乎 所 有 的 处 理 器 都 实现 了 测试 和 设置 指令 ， 这 一 指 
令 测 试 整数 的 值 ， 如 果 其 值 为 0， 就 设置 一 新 值 。0 意味 着 开锁 。 在 流行 的 x86 体系 结构 中 ， 锁 
的 实现 也 不 例外 ， 它 使 用 了 称 为 compare 和 exchange 的 类 似 指令 。 


9.2.1 造成 并 发 执行 的 原因 


用 户 空间 之 所 以 需要 同步 ， 是 因为 用 户 程序 会 被 调度 程序 抢占 和 重新 调度 。 由 于 用 户 进程 可 
能 在 任何 时 刻 被 抢占 ， 而 调度 程序 完全 可 能 选择 另 一 个 高 优先 级 的 进程 到 处 理 器 上 执行 ， 所 以 就 
会 使 得 一 个 程序 正 处 于 临界 区 时 ， 被 非 自 愿 地 抢占 了 。 如 果 新 调度 的 进程 随后 也 进入 同一 个 临界 
区 《比如 说 ， 这 两 个 进程 要 操作 共享 的 内 存 ， 或 者 向 同一 个 文件 描述 符 中 写 入 )， 前 后 两 个 进程 
相互 之 间 就 会 产生 竞争 。 另 外 ， 因 为 信号 处 理 是 异步 发 生 的， 所 以 ， 即 使 是 单线 程 的 多 个 进程 共 
享 文 俐 ， 或 者 在 一 个 程序 内 部 处 理 信 号 ， 也 有 可 能 产生 竞争 条 件 。 这 种 类 型 的 并 发 操作 一 一 这 里 
其 实 两 者 并 不 真是 同时 发 生 的 ， 但 它们 相互 交叉 进行 ， 所 以 也 可 称 作伪 并 发 执行 。 

如 果 你 有 一 台 支 持 对 称 多 处 理 器 的 机 器 ， 那 么 两 个 进程 就 可 以 真正 地 在 临界 区 中 同时 执行 
了 ， 这 种 类 型 称 为 真 并 发 。 虽 然 真 并 发 和 伪 并 发 的 原因 和 含义 不 同 ， 但 它们 都 同样 会 造成 竞争 条 
件 ， 而 且 也 需要 同样 的 保护 。 

内 核 中 有 类 似 可 能 造成 并 发 执行 的 原因 。 它 们 是 ; 

“中 断 一 一 中 断 儿 乎 可 以 在 任何 时 刻 异 步 发 生 ， 也 就 可 能 随时 打 断 当前 正在 执行 的 代码 。 

" 软 中 断 和 tasklet 一 一 内 核能 在 任何 时 刻 唤 醒 或 调度 软 中 新 和 tasklet， 打 断 当 前 正在 执行 

的 代码 。 

* 内 核 抢 占 一 一 因为 内 核 具有 抢占 性 ， 所 以 内 核 中 的 任务 可 能 会 被 另 一 任务 抢占 。 

“ 睡眠 及 与 用 户 空 间 的 同步 一 一 在 内 核 执 行 的 进程 可 能 会 睡 卢 ， 这 就 会 唤醒 调度 程序 ， 从 而 

导致 调度 一 个 新 的 用 户 进程 执行 。 

"对称 多 处 理 一 一 两 个 或 多 个 处 理 器 可 以 同时 执行 代码 。 

对 内 核 开 发 者 来 说 ， 必 须 理解 上 述 这 些 并 发 执行 的 原因 ， 并 且 为 它们 事先 做 足 准备 工作 。 如 
果 在 一 段 内 核 代 码 操作 某 资源 的 时 候 系 统 产 生 了 一 个 中 断 ， 而 且 该 中 断 的 处 理 程序 还 要 访问 这 一 
资源 ， 这 就 是 一 个 bug ; 类 似 地 ， 如 果 一 段 内 核 代 码 在 访问 一 个 共享 资源 期 间 可 以 被 抢占 ， 这 也 
是 一 个 bug ; 还 有 ， 如 果 内 核 代 码 在 临界 区 里 睡眠 ， 那 简直 就 是 鼓掌 欢迎 竞争 条 件 的 到 来 。 最 后 








日 ”也 就 是 说 ， 反 复 处 于 一 个 循环 中 ， 不 断 检测 锁 状 态 ， 等 待 锁 变 为 可 用 。 
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还 要 注意 ， 两 个 处 理 器 绝对 不 能 同时 访问 同一 共享 数据 。 当 我 们 清楚 什么 样 的 数据 需要 保护 时 ， 
提供 锁 来 保护 系统 稳定 也 就 不 难 做 到 了 。 然 而 ， 真 正 困难 的 就 是 发 现 上 述 的 潜在 并 发 执行 的 可 
能 ， 并 有 意识 地 采取 某 些 措施 来 防止 并 发 执行 。 

我 们 要 重申 这 点 ， 因 为 它 实在 是 很 重要 。 其 实 ， 真 正 用 锁 来 保护 共享 资源 并 不 困难 ， 尤 其 
是 在 设计 代码 的 早期 就 这 么 做 了 ， 事 情 就 更 简单 了 。 辨 认 出 真正 需要 共享 的 数据 和 相应 的 临界 
区 ， 才 是 真正 有 挑战 性 的 地 方 。 要 记 住 ， 最 开始 设计 代码 的 时 候 就 要 考虑 加 入 锁 ， 而 不 是 事后 
才 想 到 。 如 果 代 码 已 经 写 好 了 ， 再 在 其 中 找到 需要 上 锁 的 部 分 并 向 其 中 追加 锁 ， 是 非常 困难 的 ， 
结果 也 往往 不 尽 如 人 意 。 所 以 ， 避 免 这 种 亡羊补牢 的 做 法 是 : 在 编写 代码 的 开始 阶段 就 要 设计 恰 
当 的 锁 。 

在 中 断 处 理 程序 中 能 避免 并 发 访问 的 安全 代码 称 作 中 断 安全 代码 (interrupt-saft)， 在 对 称 多 
处 理 的 机 器 中 能 避免 并 发 访问 的 安全 代码 称 为 SMP 安全 代码 (SMP-safe) , 在 内 核 抢占 时 能 避免 
并 发 访问 的 安全 代码 称 为 抢占 安全 代码 9 (preempt-safe )。 在 第 10 章 会 重点 讲述 为 了 提供 同步 
和 避免 所 有 上 述 竞争 条 件 ， 内 核 所 使 用 的 实际 方法 。 


9.2.2 了 解 要 保护 些 什么 


找 出 哪些 数据 需要 保护 是 关键 所 在 。 由 于 任何 可 能 被 并 发 访问 的 代码 都 几乎 无 例外 地 需 
要 保护 ， 所 以 寻找 哪些 代码 不 需要 保护 反而 相对 更 容易 些 ， 我 们 也 就 从 这 里 入 手 。 执 行 线程 的 
局 部 数据 仅仅 被 它 本 身 访问 ， 显 然 不 需要 保护 ， 比 如 ， 局 部 自动 变量 (还 有 动态 分 配 的 数据 结 
构 ， 其 地 址 仅 存 放 在 堆栈 中 ) 不 需要 任何 形式 的 锁 ， 因 为 它们 独立 存在 于 执行 线程 的 栈 中 。 类 
似 的， 如 果 数 据 只 会 被 特定 的 进程 访问 ， 那 么 也 不 需要 加 锁 〈 因 为 进程 一 次 只 在 一 个 处 理 器 上 
执行 )。 

到 底 什么 数据 需要 加 锁 呢 ?大 多 数 内 核 数 据 结 构 都 需要 加 锁 ! 有 一 条 很 好 的 经 验 可 以 帮助 我 
们 判断 : 如 果 有 其 他 执行 线程 可 以 访问 这 些 数据 ， 那 么 就 给 这 些 数据 加 上 某 种 形式 的 锁 ; 如 果 任 
何其 他 什么 东西 都 能 看 到 它 ， 那 么 就 要 锁 住 它 。 记 住 : 要 给 数据 而 不 是 给 代码 加 锁 。 


配置 选项 : SMP 与 UP 

: 因为 Linux 内 核 可 在 编译 时 配置 ， 所 以 你 可 以 针对 指定 机 器 进行 内 核 裁剪 。 更 重要 的 
1 是 ，CONFIG_SMP 配置 选项 控制 内 核 是 否 支持 SMP。 许 多 加 锁 问 题 在 单 处 理 器 上 是 不 存在 
二 的 ， 因 而 当 CONFIG_SMP 没 被 设置 时 ， 不 必要 的 代码 就 不 会 被 编 入 针对 单 处 理 器 的 内 核 映像 
“ 中。 这 样 做 可 以 使 单 处 理 器 机 器 避免 使 用 自 旋 锁 带 来 的 开销 。 同 样 的 技巧 也 适用 于 CONFIG_ 
”PREEMPT (允许 内 核 抢 占 的 配置 选项 )。 这 种 设计 真 的 很 优越 一 一 内 核 只 用 维护 一 些 简洁 
par 各 种 各 样 的 锁 机 制 当 需要 时 可 随时 被 编译 进 内 核 使 用 。 在 不 同 的 体系 结构 上 ， 
. |， CONFIG_SMP 和 CONFIG_PREEMPT 设置 不 同 ， 实 际 编译 时 包含 的 锁 就 不 同 。 

4 在 代码 中 ， 要 为 大 多 数 精 楼 的 情况 提供 适当 的 保护 ， 例 如 具有 内 核 抢占 的 SMP， 并 且 要 
总 考虑 到 所 有 的 情况 。 





日 你 将 看 到 ， 除 了 一 些 意外 情况 外 ，SMP 安全 其 实 也 意味 着 抢占 安全 。 


内 相 同 步 从 绍 137 


在 编写 内 核 代码 时 ， 你 要 问 自己 下 面 这 些 问题 : 

。 这 个 数据 是 不 是 全 局 的 ? 除了 当前 线程 外 , 其 他 线程 能 不 能 访问 它 ? 

* 这 个 数据 会 不 会 在 进程 上 下 文 和 中 断 上 下 文中 共享 ? 它 是 不 是 要 在 两 个 不 同 的 中 断 处 理 程 
序 中 共享 ? 

“进程 在 访问 数据 时 可 不 可 能 被 抢占 ? 被 调度 的 新 程序 会 不 会 访问 同一 数据 ? 

* 当前 进程 是 不 是 会 睡眠 〈 阻 塞 ) 在 某 些 资源 上 ， 如 果 是 ， 它 会 让 共享 数据 处 于 何 种 状态 ? 
。 怎样 防止 数据 失控 ? 

。 如 果 这 个 函数 又 在 另 一 个 处 理 器 上 被 调度 将 会 发 生 什么 呢 ? 

。 如 何 确保 代码 远离 并 发 威胁 呢 ? 


简 而 言 之 ， 几 乎 访问 所 有 的 内 核 全 局 变量 和 共享 数据 都 需要 某 种 形式 的 同步 方法 ， 具 体 加 锁 
方法 将 在 第 10 章 进 行 讨论 。 


9.3 死 锁 


死 锁 的 产生 需要 一 定 条 件 : 要 有 一 个 或 多 个 执行 线程 和 一 个 或 多 个 资源 ， 每 个 线程 都 在 等 待 
其 中 的 一 个 资源 ， 但 所 有 的 资源 都 已 经 被 占用 了 。 所 有 线程 都 在 相互 等 待 ， 但 它们 永远 不 会 释放 
已 经 占有 的 资源 。 于 是 任何 线程 都 无 法 继续 ， 这 便 意 味 着 死 锁 的 发 生 。 

一 个 很 好 的 死 锁 例 子 是 四 路 交通 堵塞 问题 。 如 果 每 一 个 停止 的 车 都 决心 等 待 其 他 的 车 开动 后 
自己 再 启动 ， 那 么 就 没有 任何 一 辆 车 能 启动 ， 于 是 就 造成 了 交通 死 锁 的 发 生 。 

最 简单 的 死 锁 例子 是 自 死 锁 9 ; 如 果 一 个 执行 线程 试图 去 获得 一 个 自己 已 经 持 有 的 锁 ， 它 将 
不 得 不 等 待 锁 被 释放 ， 但 因为 它 正在 忙 着 等 待 这 个 锁 ， 所 以 自己 永远 也 不 会 有 机 会 释放 锁 ， 最 终 
结果 就 是 死 锁 : 

获得 锁 

再 次 试图 获得 锁 

等 待 锁 重新 可 用 


同样 道理 ， 考 虑 有 mn 个 线程 和 n 个 锁 ， 如 果 每 个 线程 都 持 有 一 把 其 他 进程 需要 得 到 的 锁 ， 那 
么 所 有 的 线程 都 将 阻塞 地 等 待 它们 希望 得 到 的 锁 重 新 可 用 。 最 常见 的 例子 是 有 两 个 线程 和 两 把 
锁 ， 它 们 通常 被 叫做 ABBA 死 锁 。 


线程 1 线程 2 
获得 锁 A 获得 锁 B 
试图 获得 锁 B 试图 获得 锁 A 
等 待 锁 B 等 待 锁 A 


每 个 线程 都 在 等 待 其 他 线程 持 有 的 锁 ， 但 是 绝 疫 有 一 个 线程 会 释放 它们 一 开始 就 持 有 的 锁 ， 
所 以 没有 任何 锁 会 在 释放 后 被 其 他 线程 使 用 。 





日 有 些 内 核 提供 递归 锁 来 防止 自 死 锁 现象 ， 递 归 锁 可 以 被 一 个 执行 线程 多 次 请 求 。 幸 好 Linux 没有 提供 这 样 的 
递归 锁 。 不 用 递归 锁 通 常 被 认为 是 一 件 好 事 ， 虽 然 递 归 锁 缓和 了 自 死 锁 问题 ， 但 它们 很 容易 使 加 锁 逻 辑 变 得 
杂乱 无 章 。 
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预防 死 锁 的 发 生 非常 重要 ， 虽 然 很 难 证 明代 码 不 会 发 生死 锁 ， 但 是 可 以 写 出 避免 死 锁 的 代 
码 ， 一 些 简单 的 规则 对 避免 死 锁 大 有 帮助 ; 

“ 按 顺 序 加 锁 。 使 用 能 套 的 锁 时 必须 保证 以 相同 的 顺序 获取 锁 ， 这 样 可 以 阻止 致命 拥抱 类 型 

的 死 锁 。 最 好 能 记录 下 锁 的 顺序 ， 以 便 其 他 人 也 能 照 此 顺序 使 用 。 

“防止 发 生 钒 饿 。 试 同 ， 这 个 代码 的 执行 是 否 一 定 会 结束 ? 如 果 “ 张 ”不 发 生 ? “ 王 ” 要 一 

直 等 待 下 去 吗 ? 

“ 不 要 重复 请 求 同 一 个 锁 。 

“设计 应 力求 简单 一 一 越 复杂 的 加 锁 方 案 越 有 可 能 造成 死 锁 。 

最 值得 强调 的 是 第 一 点 ， 它 最 为 重要 。 如 果 有 两 个 或 多 个 锁 曾 在 同一 时 间 里 被 请 求 ， 那 么 
以 后 其 他 函数 请 求 它们 也 必须 按照 前 次 的 加 锁 顺 序 进 行 。 假 设 有 cat、dog 和 fox 这 几 个 锁 来 保 
护 某 同 名 的 多 个 数据 结构 ， 同 时 假设 有 一 个 函数 对 这 三 个 锁 保护 的 数据 结构 进行 操作 一 一 可 能 在 
它们 之 间 进 行 拷贝 。 不 管 哪 种 情况 ， 这 些 数据 结构 都 需要 保护 才能 被 安全 访问 。 如 果 有 一 个 函数 
以 cat、dog， 然 后 是 fox 的 顺序 获得 了 锁 ， 那 么 其 他 任何 函数 都 必须 以 同样 的 顺序 来 获得 这 些 锁 
(或 是 它们 的 子 集 )。 如 果 其 他 函数 首先 获得 锁 fox， 然 后 获得 锁 dog (因为 锁 dog 总 是 应 该 先 于 
锁 fox 被 获得 )， 就 有 发 生死 锁 的 可 能 (所 以 是 个 bag)。 为 更 直观 地 说 明 ， 下 面 给 出 一 个 造成 死 
锁 的 例子 : 





线程 1 线程 2 
获得 锁 cat 获得 锁 fox 
获得 锁 dog 试图 获得 锁 dog 
试图 获得 锁 fox 等 待 锁 dog 
等 待 锁 fox seuese 


线程 1 在 等 待 锁 fox， 而 该 锁 此 刻 被 线程 2 持 有 ; 同样 线程 2 正在 等 待 锁 dog， 而 该 锁 此 刻 
又 被 线程 1 持 有 。 任 何 一 方 都 不 会 放弃 自己 已 持 有 的 锁 ， 于 是 双方 都 会 永远 地 等 待 下 去 一 一 也 就 
是 死 锁 。 但 是 ， 只 要 线程 都 按照 相同 的 顺序 去 获取 这 些 锁 ， 就 可 以 避免 上 述 的 死 锁 情 况 。 

只 要 人 舱 套 地 使 用 多 个 锁 ， 就 必须 按照 相同 的 顺序 去 获取 它们 。 在 代码 中 使 用 锁 的 地 方 ， 对 锁 
的 获取 顺序 加 上 注释 是 个 良好 的 习惯 。 下 面 的 例子 就 做 得 很 不 错 : 

2 

* cat_lock. 

Ah 

尽管 释放 锁 的 顺序 和 和 死 锁 是 无 关 的 ， 但 最 好 还 是 以 获得 锁 的 相反 顺序 来 释放 锁 。 

防止 死 锁 很 重要 ， 所 以 Linux 内 核 提 供 了 一 些 简单 易 用 的 调试 工具 ， 可 以 在 运行 时 检测 死 
锁 ， 我 们 将 在 第 10 章 讨 论 它们 。 


9.4 争 用 和 扩展 性 


锁 的 争 用 《lock contention)， 或 简称 争 用 ， 是 指 当 锁 正 在 被 占用 时 ， 有 其 他 线程 试图 获得 该 
锁 。 说 一 个 锁 处 于 高 度 争 用 状态 ， 就 是 指 有 多 个 其 他 线程 在 等 待 获 得 该 锁 。 由 于 锁 的 作用 是 使 程 
序 以 串 行 方式 对 资源 进行 访问 ， 所 以 使 用 锁 无 疑 会 降低 系统 的 性 能 。 被 高 度 争 用 〈 频 繁 被 持 有 ， 





用 于 保护 访问 cat 数据 结构 的 锁 ， 总 是 要 在 获得 锁 dog 前 先 获得 
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或 者 长 时 间 持 有 一 一 两 者 都 有 就 更 精 糕 〉 的 锁 会 成 为 系统 的 瓶颈 ， 严 重 降 低 系 统 性 能 。 即 使 是 这 
样 ， 相 比 于 被 几 个 相互 抢夺 共享 资源 的 线程 英 成 碎片 ， 搞 得 内 核 崩溃 ， 还 是 这 种 同步 保护 来 得 更 
好 一 点 。 当 然 ， 如 果 有 办 法 能 解决 高 度 争 用 问题 ， 就 更 好 不 过 了 。 

扩展 性 (scalability〉 是 对 系统 可 扩展 程度 的 一 个 量度 。 对 于 操作 系统 ， 我 们 在 谈 及 可 扩展 
性 时 就 会 和 大 量 进程 、 大 量 处 理 器 或 是 大 量 内 存 等 联系 起 来 。 其 实 任何 可 以 被 计量 的 计算 机 组 件 
都 可 以 涉及 可 扩展 性 。 理 想 情况 下 ， 处 理 器 的 数量 加 倍 应 该 会 使 系统 处 理性 能 翻 倍 。 而 实际 上 ， 
这 是 不 可 能 达到 的 。 

自从 2.0 版 内 核 引 入 多 处 理 支 持 后 ，Linux 对 集群 处 理 器 的 可 扩展 性 大 大 提高 了 。 在 Linux 
刚 加 入 对 多 处 理 器 支持 的 时 候 ， 一 个 时 刻 只 能 有 一 个 任务 在 内 核 中 执行 ; 在 2.2 版 本 中 ， 当 加 
锁 机 制 发 展 到 细 粒 度 (fine-grained〉 加 锁 后 ， 便 取消 了 这 种 限制 ， 而 在 2.4 和 后 续 版 本 中 ， 内 
核 加 锁 的 粒度 变 得 越 来 越 精细 。 如 今 ， 在 Linux 2.6 版 内 核 中 , 内 核 加 的 锁 是 非常 细 的 粒度 ， 可 
扩展 性 也 很 好 。 

加 锁 粒 度 用 来 描述 加 锁 保 护 的 数据 规模 。 一 个 过 粗 的 锁 保护 大 块 数据 一 一 比如 ， 一 个 子 系统 
用 到 的 所 有 的 数据 结构 ; 相反 ， 一 个 过 于 精细 的 锁 保护 很 小 的 一 块 数据 一 一 比如 ， 一 个 大 数据 结 
构 中 的 一 个 元 素 。 在 实际 使 用 中 ， 绝 大 多 数 锁 的 加 锁 范 围 都 处 于 上 述 两 种 极端 之 间 ， 保 护 的 既 不 
是 一 个 完整 的 子 系统 也 不 是 一 个 独立 元 素 ， 而 可 能 是 一 个 单独 的 数据 结构 。 许 多 锁 的 设计 在 开始 
阶段 都 很 粗 ， 但 是 当 锁 的 争 用 问题 变 得 严重 时 ， 设 计 就 向 更 加 精细 的 加 锁 方 向 进化 。 

在 第 4 章 中 讨论 过 的 运行 队列 ， 就 是 一 个 锁 从 粗 到 精细 化 的 实例 。 在 2.4 版 和 更 早 的 内 核 
中 ， 调 度 程 序 有 一 个 单独 的 调度 队列 (回忆 一 下 ， 调 度 队列 是 一 个 由 可 调度 进程 组 成 的 链表 )， 
在 2.6 版 内 核 系列 的 早期 版 本 中 ，O(1) 调度 程序 为 每 个 处 理 器 单独 配备 一 个 运行 队列 ， 每 个 队列 
拥有 自己 的 锁 ， 于 是 加 锁 由 一 个 全 局 锁 精 化 到 了 每 个 处 理 器 拥有 各 自 的 锁 。 这 是 一 种 重要 的 优化 ， 
因为 运行 队列 锁 在 大 型 机 器 上 被 争 着 用 ， 本 质 上 就 是 要 在 调度 程序 中 每 次 都 把 整个 调度 进程 下 放 


” 到 单个 处 理 器 上 执行 。 在 2.6 版 内 核 系列 的 新 近 版 本 中 ，CFS 调度 器 进一步 提升 了 锁 的 可 扩展 性 。 


一 般 来 说 ， 提 高 可 扩展 性 是 件 好 事 ， 因 为 它 可 以 提高 Linux 在 更 大 型 的 、 处 理 能 力 更 强大 的 
系统 上 的 性 能 。 但 是 一 味 地 “提高 ”可 扩展 性 ， 却 会 导致 Linux 在 小 型 SMP 和 UP 机 器 上 的 性 
能 降低 ， 这 是 因为 小 型 机 器 可 能 用 不 到 特别 精细 的 锁 ， 锁 得 过 细 只 会 增加 复杂 度 ， 并 加 大 开销 。 
考虑 一 个 链表 ， 最 初 的 加 锁 方案 可 能 就 是 用 一 个 锁 来 保护 链表 ， 后 来 发 现 ， 在 拥有 和 集群 处 理 器 机 
器 上 ， 当 各 个 处 理 器 需要 频繁 访问 该 链表 的 时 候 ， 只 用 单独 一 个 锁 却 成 了 扩展 性 的 瓶颈 。 为 解决 
这 个 瓶颈 ， 我 们 将 原来 加 锁 的 整个 链表 变 成 为 链表 中 的 每 一 个 结 点 都 加 入 自己 的 锁 ， 这 样 一 来 ， 
如 果 要 对 结 点 进行 读 写 ， 必 须 先 得 到 这 个 结 点 对 应 的 锁 。 将 加 锁 粒 度 变 细 后 ， 多 处 理 器 访问 同一 
个 结 点 时 ， 只 会 争 用 一 个 锁 。 可 是 这 时 锁 的 争 用 仍然 没有 完全 避免 ， 那 么 ， 能 不 能 为 每 个 结 点 中 
的 每 个 元 素 都 提供 一 个 锁 呢 ? (答案 是 : 不 能 。) 严格 地 讲 ， 即 使 这 人 么 细 的 锁 可 以 在 大 规模 SMP 
机 器 上 执行 得 很 好 ， 但 它 在 双 处 理 器 机 器 上 的 表现 又 会 怎样 呢 ? 如 果 在 双 处 理 器 机 器 锁 争 用 表现 
得 并 不 明显 ， 那 么 多 余 的 锁 会 加 大 系统 开销 ， 造 成 很 大 的 浪费 。 

不 管 怎么 说 ， 可 扩展 性 都 是 很 重要 的 ， 需 要 慎重 考虑 。 关 键 在 于 ， 在 设计 锁 的 开始 阶段 就 应 
该 考虑 到 要 保证 良好 的 扩展 性 。 因 为 即使 在 小 型 机 器 上 ， 如 果 对 重要 资源 锁 得 太 粗 ， 也 很 容易 造 
成 系统 性 能 瓶颈 。 锁 加 得 过 粗 或 过 细 ， 差 别 往往 只 在 一 线 之 间 。 当 锁 争 用 严重 时 ， 加 锁 太 粗 会 降 
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低 可 扩展 性 ; 而 锁 争 用 不 明显 时 ， 加 锁 过 细 会 加 大 系统 开销 ， 带 来 浪费 ， 这 两 种 情况 都 会 造成 系 
统 性 能 下 降 。 但 要 记 住 : 设计 初期 加 锁 方案 应 该 力求 简单 ， 仅 当 需 要 时 再 进一步 细 化 加 锁 方案 。 
精 项 在 于 力求 简单 。 


9.5 ”小结 


要 编写 SMP 安全 代码 ， 不 能 等 到 编码 完成 后 才 考 虑 如 何 加 锁 。 恰 当 的 同步 〈 也 就 是 加 锁 ) 
〈 既 要 满足 不 死 锁 、 可 扩展 ， 而 且 还 要 清晰 、 简 洁 ) 需要 从 头 到 尾 ， 在 整个 编码 过 程 中 不 断 考虑 
与 完善 。 无 论 你 在 编写 哪 种 内 核 代 码 ， 是 新 的 系统 调用 也 好 ， 还 是 重 写 驱 动 程序 也 好 ， 首 先 应 该 
考虑 的 就 是 保护 数据 不 被 并 发 访问 ， 记 住 ， 加 锁 你 的 代码 。 

第 10 章 将 讨论 如 何 为 SMP、 内 核 抢占 和 其 他 各 种 情况 提供 充分 的 同步 保护 ， 确 保 数据 在 任 
何 机 器 和 配置 中 的 安全 。 

了 解 了 同步 、 并 发 和 加 锁 的 基本 原理 之 后 ， 让 我 们 现在 潜心 钻研 Linux 内 核 提供 的 实际 工 
具 ， 以 确保 你 的 代码 有 竞争 力 但 免 于 死 锁 。 


第 40 章 
内 核 同 步 方法 


第 9 章 讨 论 了 竞争 条 件 为 何 会 产生 以 及 怎么 去 解决 。 幸 运 的 是 ，Linux 内 核 提供 了 一 组 相当 
完备 的 同步 方法 ， 这 些 方法 使 得 内 核 开 发 者 们 能 编写 出 高 效 而 又 自由 竞争 的 代码 。 本 章 讨论 的 就 
是 这 些 方法 ， 包 括 它们 的 接口 、 行 为 和 用 途 。 


10.1 原子 操作 


我 们 首先 介绍 同步 方法 中 的 原子 操作 ， 因 为 它 是 其 他 同步 方法 的 基石 。 原 子 操作 可 以 保证 
指令 以 原子 的 方式 执行 一 一 执行 过 程 不 被 打 断 。 众 所 周知 ， 原 子 原本 指 的 是 不 可 分 割 的 微粒 ， 所 
以 原子 操作 也 就 是 不 能 够 被 分 割 的 指令 。 例 如 ， 第 9 章 曾 提 到 过 的 原子 方式 的 加 操作 ， 它 通过 把 
读 取 和 增加 变量 的 行为 包含 在 一 个 单 步 中 执行 ， 从 而 防止 了 竞争 的 发 生 保 证 了 操作 结果 总 是 一 致 
的 。 一 起 来 回忆 一 下 这 个 整数 递 加 过 程 中 遇 到 的 竞争 吧 : 


线程 1 线程 2 

获得 i (TT) 获得 i (7) 

增加 i (7->8) 

2 增加 i(8->9) 

写 回 i (8) 

> 写 回 i (8) 

使 用 原子 操作 ， 上 述 的 竞争 不 会 发 生 一 一 事实 上 不 可 能 发 生 。 从 而 ， 计 算 过 程 无 疑 会 是 下 述 之 一 : 
线程 1 | 线程 2 


获得 、 增 加 和 存储 i (7 -> 8) 3 
获得 、 增 加 和 存储 i (8 -> 9) 


或 者 是 


线程 1 线程 2 
2 获得 、 增 加 和 存储 i (7 -> 8) 
获得 、 增 加 和 存储 i (8 -> 9) 这 

最 后 得 到 的 9， 毫 无 疑问 是 正确 结果 。 两 个 原子 操作 绝对 不 可 能 并 发 地 访问 同一 个 变量 ， 这 
样 加 操作 也 就 绝 不 可 能 引起 竞争 。 

内 核 提 供 了 两 组 原子 操作 接口 一 一 一 组 针对 整数 进行 操作 ， 另 一 组 针对 单独 的 位 进行 操作 。 
在 Linux 支持 的 所 有 体系 结构 上 都 实现 了 这 两 组 接口 。 大 多 数 体系 结构 会 提供 支持 原子 操作 的 简 
单 算术 指令 。 而 有 些 体系 结构 确实 缺少 简单 的 原子 操作 指令 ， 但 是 也 为 单 步 执 行 提供 了 锁 内 存 总 
线 的 指令 ， 这 就 确保 了 其 他 改变 内 存 的 操作 不 能 同时 发 生 。 
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10.1.1 原子 整数 操作 


针对 整数 的 原子 操作 只 能 对 atomic t 类 型 的 数据 进行 处 理 。 在 这 里 之 所 以 引入 了 一 个 特殊 
数据 类 型 ， 而 没有 直接 使 用 C 语言 的 int 类 型 ， 主 要 是 出 于 两 个 原因 : 首先 ， 让 原子 函数 只 接收 
atomic t 类 型 的 操作 数 ， 可 以 确保 原子 操作 只 与 这 种 特殊 类 型 数据 一 起 使 用 。 同 时 ， 这 也 保证 了 
读 类 型 的 数据 不 会 被 传递 给 任何 非 原子 函数 。 实 际 上 ， 对 一 个 数据 一 会 儿 要 采用 原子 操作 ， 一 会 
儿 又 不 用 原子 操作 了 ， 这 又 能 有 什么 好 处 ? 其 次 ， 使 用 atomic_t 类 型 确保 编译 器 不 对 不 能 说 完 
美 地 完成 了 任务 但 不 乏 自 知之 明 ) 相应 的 值 进行 访问 优化 一 一 这 点 使 得 原子 操作 最 终 接 收 到 正确 
的 内 存 地 址 ， 而 不 只 是 一 个 别名 。 最 后 ， 在 不 同体 系 结构 上 实现 原子 操作 的 时 候 ， 使 用 atomic t 
可 以 屏蔽 其 闻 的 差异 。 Atomic t 类 型 定义 在 文件 <linux/types.h> 中 : 


typedef struct { 
volatile int counter; 
} atomic t; 


尽管 Linux 支持 的 所 有 机 器 上 的 整 型 数据 都 是 32 位 的 ， 但 是 使 用 atomic + 的 代码 只 能 将 该 
类 型 的 数据 当做 24 位 来 用 。 这 个 限制 完全 是 因为 在 SPARC 体系 结构 上 ， 原 子 操作 的 实现 不 同 
于 其 他 体系 结构 : 32 位 int 类 型 的 低 8 位 被 借入 了 一 个 锁 〈 如 图 10-1 所 示 )， 因 为 SPARC 体系 
结构 对 原子 操作 缺乏 指令 级 的 支持 ， 所 以 只 能 利用 该 锁 来 避免 对 原子 类 型 数据 的 并 发 访问 。 所 以 
在 SPARC 机 器 上 就 只 能 使 用 24 位 了 。 虽 然 其 他 机 器 上 的 代码 完全 可 以 使 用 全 部 的 32 位 ， 但 在 
SPARC 机 器 上 却 可 能 造成 一 些 奇 怪 和 微妙 的 错误 一 一 这 简直 太 不 和 谐 了 。 最 近 ， 机 灵 的 黑客 已 
经 允许 SPARC 提供 全 32 位 的 atomic_t， 这 一 限制 不 存在 了 。 


32 位 atomic_t 





位 31 7 -0 
10-1 SPARC 上 的 32 位 atomic t 的 布局 


使 用 原子 整 型 操作 需要 的 声明 都 在 <asm/atomic.h> 文件 中 。 有 些 体系 结构 会 提供 一 些 
只 能 在 该 体系 结构 上 使 用 的 额外 原子 操作 方法 ， 但 所 有 的 体系 结构 都 能 保证 内 核 使 用 到 的 
所 有 操作 的 最 小 集 。 在 写 内 核 代码 时 ， 可 以 肯定 ， 这 个 最 小 操作 和 集 在 所 有 体系 结构 上 都 已 
实现 了 。 

定义 一 个 atomic t 类 型 的 数据 方法 很 平常 ， 你 还 可 以 在 定义 时 给 它 设 定 初 值 : 








atomic t vi /* 定 义 了 */ 

atomic t u = ATOMIC INIT(0); /* 定 义 u 并 把 它 初始 化 为 0*/ 
操作 也 都 非常 简单 : 

atomic set(&v,4); /* Vv = 4 (原子 地 )*/ 


atomic add(2,&v); /*VvV=V+2=6 (原子 地 ) */ 
atomic inc(&v); /A/*VvV=V+1 =7( 原 子 地 )*/ 
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如 果 需 要 将 atomic t 转换 成 nt 型 ， 可 以 使 用 atomic_read0 来 完成 : 

printk ("$d\n",atomic read(&v)); /* 会 打印 "7"*/ 

原子 整数 操作 最 常见 的 用 途 就 是 实现 计数 器 。 使 用 复杂 的 锁 机 制 来 保护 一 个 单纯 的 计数 器 显 
然 杀 鸡 用 了 宰 牛刀， 所 以 ， 开 发 者 最 好 使 用 atomic_inc() 和 atomic_dec() 这 两 个 相对 来 说 轻便 一 
点 的 操作 。 

还 可 以 用 原子 整数 操作 原子 地 执行 一 个 操作 并 检查 结果 。 一 个 常见 的 例子 就 是 原子 地 减 操作 
和 检查 。 


int atomic dec and test (atomic t *v) 


这 个 函数 将 给 定 的 原子 变量 减 1， 如 果 结 果 为 0， 就 返回 真 ; 否则 返回 假 。 表 10-1 列 出 了 所 
有 的 标准 原子 整数 操作 (所 有 体系 结构 都 包含 这 些 操作 )。 某 种 特定 的 体系 结构 上 实现 的 所 有 操 
作 可 以 在 文件 <asm/atomic.h> 中 找到 。 


表 10-1 原子 整数 操作 列表 


原子 整数 操作 描 述 
ATOMIC _INIT(int i) 在 声明 一 个 atomic t 变量 时 ， 将 它 初始 化 为 i 
int atomic_read(atomic_t *v) 原子 地 读 取 整数 变量 v 
void atomic_set(atomic t *v, int i) 原子 地 设置 v 值 为 i 
void atomic_ add(int i,atomic t *v) 原子 地 给 Vv 加 i 
void atomic_sub(int i,atomic _t *v) 原子 地 从 v 减 i 
void atomic_inc(atomic_t *v) 原子 地 给 v 加 1 
void atomic_dec(atomic t *v) 原子 地 从 Vv 减 1 
int atomic_sub_and_test(int i,atomic t *v) 原子 地 从 v 减 i， 如 果 结 果 等 于 0， 返 回 真 ; 否则 返回 假 
int atomic_add_negative(int i,atomic_t *v) 原子 地 给 v 加 i， 如 果 结 果 是 负数 ， 返 回 真 ; 否则 返回 假 
int atomic_add_return(int i, atomic_t *v) 原子 地 给 v 加 i， 且 返回 结果 
int atomic_sub_return(int i, atomic t *v) 原子 地 从 VvV 减 i， 且 返回 结果 
int atomic_inc_return(int i, atomic t *v) 原子 地 给 v 加 1， 且 返回 结果 
int atomic_dec_return(int i, atomic_ t*v) 原子 地 从 v 减 1， 且 返回 结果 
int atomic_dec_and test(atomic_t *v) 原子 地 从 Vv 减 1， 如 果 结 果 等 于 0， 返回 真 ; 否则 返回 假 
int atomic inc_and test(atomic t *v) 原子 地 给 v 加 1， 如 果 结 果 等 于 0， 返 回 真 ; 否则 返回 假 


原子 操作 通常 是 内 联 函数 ， 往 往 是 通过 内 婴 汇 编 指令 来 实现 的 。 如 果 某 个 函数 本 来 就 是 原 
子 的 ， 那 么 它 往往 会 被 定义 成 一 个 宏 。 例 如 ， 在 大 部 分 体系 结构 上 ， 读 取 一 个 字 本 身 就 是 一 种 原 
子 操作 ， 也 就 是 说 ， 在 对 一 个 字 进 行 写 入 操作 期 间 不 可 能 完成 对 该 字 的 读 取 。 这 样 ， 把 atomic_ 
read() 定义 成 一 个 宏 ， 只 须 返 回 atomic_t 类 型 的 整数 值 就 可 以 了 。 
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/rx 

* atomic read - read atomic variable 
* @v: pointer of type atomic 七 

入 


* Atomically reads the value of av. 
*/ 
static inline int atomic read(const atomic t *v) 
{ 
return Vv->counter; 


} 


。 原子 性 与 顺序 性 的 比较 
’ 关于 原子 读 取 的 上 述 讨 论 引发 了 原子 性 与 顺序 性 之 间 差 异 的 讨论 。 正 如 所 讨论 的 ， 一 个 
” 字 长 的 读 取 总 是 原子 地 发 生 ， 绝 不 可 能 对 同一 个 字 交 错 地 进行 写 ; 读 总 是 返回 一 个 完整 的 字 ， 
“这 或 者 发 生 在 写 操作 之 前 ， 或 者 之 后 ， 绝 不 可 能 发 生 在 写 的 过 程 中 。 例 如 ， 如 果 一 个 整数 初 
” 始 化 为 42， 然 后 又 置 为 365， 那 么 读 取 这 个 整数 肯定 会 返回 42 或 者 365， 而 绝 不 会 是 二 者 的 
『 混合 。 这 就 是 我 们 所 谓 的 原子 性 。 
. 也 许 代 码 比 这 有 更 多 的 要 求 。 或 许 要 求 读 必须 在 待定 的 写 之 前 发 生 一 一 这 种 需求 其 实 不 
属于 原子 性 要 求 ， 而 是 顺序 要 求 。 原 子 性 确保 指令 执行 期 间 不 被 打 断 ， 要 么 全 部 执行 完 ， 要 
”人 么 根本 不 执行 。 另 一 方面 ， 顺 序 性 确保 即使 两 条 或 多 条 指令 出 现在 独立 的 执行 线程 中 ， 甚 至 
”独立 的 处 理 器 上 ， 它 们 本 该 的 执行 顺序 却 依然 要 保持 。 

在 本 小 节 讨 论 的 原子 操作 只 保证 原子 性 。 顺 序 性 通过 屏障 (barrier) 指令 来 实施 ， 这 将 在 

本 章 的 后 面 讨 论 。 


在 编写 代码 的 时 候 ， 能 使 用 原子 操作 时 ， 就 尽量 不 要 使 用 复杂 的 加 锁 机 制 。 对 多 数 体系 结构 
来 讲 ， 原 子 操作 与 更 复杂 的 同步 方法 相 比 较 ， 给 系统 带 来 的 开销 小 ， 对 高 速 缓 存 行 〈cache-line) 
的 影响 也 小 。 但 是 ， 对 于 那些 有 高 性 能 要 求 的 代码 ， 对 多 种 同步 方法 进行 测试 比较 ， 不 失 为 一 种 
明智 的 做 法 。 


10.1.2 64 位 原子 操作 


随 着 64 位 体系 结构 越 来 越 普及 ， 内 核 开发 者 确实 在 考虑 原子 变量 除 32 位 atomic + 类 型 外 ， 
也 应 引入 64 位 的 atomic64_t。 因 为 移植 性 原因 ，atomic_t 变量 大 小 无 法 在 体系 结构 之 间 改 变 。 所 
以 ，atomic t 类 型 即便 在 64 位 体系 结构 下 也 是 32 位 的 ， 若 要 使 用 64 位 的 原子 变量 ， 则 要 使 用 
atomic64 t 类 型 一 一 其 功能 和 其 32 位 的 兄弟 无 异 ， 使 用 方法 完全 相同 ， 不 同 的 只 有 整 型 变量 大 小 
从 32 位 变 成 了 64 位。 几乎 所 有 的 经 典 32 位 原子 操作 都 有 64 位 的 实现 ， 它 们 被 冠 以 atomic64 前 
组 ， 而 32 位 实现 冠 以 atomic 前 级 。 表 10-2， 是 所 有 标准 原子 操作 列表 ; 有 些 体系 结构 实现 的 方法 
更 多 ， 但 是 没有 移植 性 。 与 atomic t 一样 ，atomic64 类 型 其 实 是 对 长 整 型 的 一 个 简单 封装 类 。 


typedef struct { 
volatile long counter; 
} atomic64 t; 
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表 10-2 原子 整 型 操作 


原子 整数 操作 描 述 
ATOMIC64_INIT(long i) 在 声明 一 个 atomic t 变量 时 ， 将 它 初 始 化 为 i 
long atomic64_read(atomic64_t *v) 原子 地 读 取 整数 变量 v 
void atomic64_set(atomic64_t *v, int i) 原子 地 设置 v 值 为 i 
void atomic64 add(int i,atomic64 t *v) 原子 地 给 vV 加 i 
void atomic64_sub(int jatomic64 t *v) 原子 地 从 v 减 i 
void atomic64_inc(atomic64 t *v) 原子 地 给 v 加 1 
void atomic64 dec(atomic64 t *v) 原子 地 从 v 减 1 
int atomic64_sub_and_test(int i,atomic64 t *v) 原子 地 从 v 减 i， 如 果 结 果 等 于 0， 返回 真 ; 否则 返回 假 
int atomic64_add_negative(int i,atomic64 t *v) 原子 地 给 v 加 i， 如 果 结 果 是 负数 ， 返 回 真 ; 否则 返回 假 
long atomic64_add_return(int i, atomic64_t *v) 原子 地 给 v 加 i， 且 返回 结果 
long atomic64_sub_return(int iatomic64_t*v) 原子 地 从 v 减 i， 且 返回 结果 
long atomic64_inc_return(int i, atomic64_t *v) 原子 地 给 v 加 i， 且 返回 结果 
long atomic64_dec_return(int i, atomic64 t *v) 原子 地 从 v 减 i， 且 返回 结果 
int atomic64_dec_and test(atomic64 t *v) 原子 地 从 v 减 i， 如 果 结 果 等 于 0， 返回 真 ; 否则 返回 假 
int atomic64 inc_and test(atomic64 t *v) 原子 地 给 v 加 i， 如 果 结 果 等 于 0， 返 回 真 ; 否则 返回 假 


所 有 64 位 体系 结构 都 提供 了 atomic64_t 类 型 ， 以 及 一 组 对 应 的 算数 操作 方法 。 但 是 多 数 
32 位 体系 机 构 不 支持 atomic64_t 类 型 一 一 不 过 ，x86-32 是 一 个 众所周知 的 例外 。 为 了 便于 在 
Linux 支持 的 各 种 体系 结构 之 间 移 植 代码 ， 开 发 者 应 该 使 用 32 位 的 atomic t 类 型 。 把 64 位 的 
atomic64_t 类 型 留 给 那些 特殊 体系 结构 和 需要 64 位 的 代码 吧 。 


10.1.3 ”原子 位 操作 


除了 原子 整数 操作 外 ， 内 核 也 提供 了 一 组 针对 位 这 一 级 数据 进行 操作 的 函数 。 没 什么 好 奇怪 
的 ， 它 们 是 与 体系 结构 相关 的 操作 ， 定 义 在 文件 <asm/bitops.h> 中 。 

令 人 感到 奇怪 的 是 位 操作 函数 是 对 普通 的 内 存 地 址 进行 操作 的 。 它 的 参数 是 一 个 指针 和 一 
个 位 号 ， 第 0 位 是 给 定 地 址 的 最 低 有 效 位 。 在 32 位 机 上 ， 第 31 位 是 给 定 地 址 的 最 高 有 效 位 而 
第 32 位 是 下 一 个 字 的 最 低 有 效 位 。 虽 然 使 用 原子 位 操作 在 多 数 情况 下 是 对 一 个 字 长 的 内 存 进 
行 访问 ， 因 而 位 号 应 该 位 于 0 一 31 (在 64 位 机 器 中 是 0 ~ 63)， 但 是 ， 对 位 号 的 范围 并 没有 
限制 。 

由 于 原子 位 操作 是 对 普通 的 指针 进行 的 操作 ， 所 以 不 像 原子 整 型 对 应 atomic t， 这 里 没有 
特殊 的 数据 类 型 。 相 反 ， 只 要 指针 指向 了 任何 你 希望 的 数据 ， 你 就 可 以 对 它 进行 操作 。 来 看 一 
个 例子 : 
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unsigned long word = 0; 


set bit(0, &word); /* 第 0 位 被 设置 (原子 地 ) */ 
set_bit (1,&word); /* 第 1 位 被 设置 (原子 地 ) */ 
printk("gui\n”",word);  /* 打 Eh 3*/ 

clear _bit (1,&word) ; /* 清空 第 1 位 */ 

change_bit (0,&word) ; /* 翻转 第 0 位 的 值 ， 这 里 它 被 清空 */ 


/* 原子 地 设置 第 0 位 并 且 返 回 设置 前 的 值 (0) */ 
if (test _ and set bit(0,gword){ 


/* 永远 不 为 真 */ 
} 


/* 下 面 的 语句 是 合法 的 ; 你 可 以 把 原子 位 指令 与 一 般 的 c 语句 混在 一 起 */ 


word = 7; 


在 表 10-3 中 给 出 了 标准 原子 位 操作 列表 。 
表 10-3 原子 位 操作 的 列表 


原子 位 操作 描 述 
void set_bit(int nr,void *addr) 原子 地 设置 addr 所 指 对 象 的 第 rr 位 
void clear_bit(int nr,void *addr) 原子 地 清空 addr 所 指 对 象 的 第 nr 位 
void change_bit(int nr,void *addr) 原子 地 翻转 addr 所 指 对 象 的 第 nr 位 
int test_and_set_bit(int nr,void *addr) he 
int test_and_clear _bit(int nr,void *addr) et 
int test_and_ change_bit(int nr,void *addr) i 所 指 对 象 的 第 严 位 ， 
int test_bit(int nr,void *addr) 原子 地 返回 addr 所 指 对 象 的 第 nr 位 


为 方便 起 见 ， 内 核 还 提供 了 一 组 与 上 述 操作 对 应 的 非 原 子 位 函数 。 非 原子 位 国 数 与 原子 位 函 
数 的 操作 完全 相同 ， 但 是 ， 前 者 不 保证 原子 性 ， 且 其 名 字 前 缀 多 两 个 下 划 线 。 例 如 ， 与 test_bit) 
对 应 的 非 原子 形式 是 __test_bit0)。 如 果 你 不 需要 原子 性 操作 《比如 说 ， 你 已 经 用 锁 保 护 了 自己 的 
数据 )， 那 么 这 些 非 原子 的 位 函数 相 比 原子 的 位 函数 可 能 会 执行 得 更 快 些 。 


名 非 原子 位 操作 到 底 是 什么 ? 

车 一 看 ， 非 原子 位 操作 没有 任何 意义 。 因 为 仅仅 涉及 一 个 位 ， 所 以 不 存在 发 生 蔬 盾 的 可 
“能 。 只 要 其 中 的 一 个 操作 成 功 ， 还 会 有 什么 事 ? 的 确 ， 顺 序 性 可 能 是 重要 的 ， 但 我 们 在 此 正 谈 
_ 论 原子 性 。 到 了 最 后 ， 如 果 这 一 位 有 了 任 一 条 指令 所 设置 的 值 ， 我 们 应 当 友好 地 离开 ， 对 吗 ? 
让 我 们 跳 回 到 原子 性 看 看 到 底 意味 着 什么 。 原 子 性 意味 着 ， 或 者 指令 完整 地 成 功 执行 完 ， 
| 不 被 打 断 ， 或 者 根本 不 执行 。 所 以 ， 如 果 你 连续 执行 两 个 原子 位 操作 ， 你 会 希望 两 个 操作 都 
成功。 在 操作 都 完成 后 ， 位 的 值 应 该 是 第 二 个 操作 所 赋予 的 。 但 是 ， 在 最 后 一 个 操作 发 生前 
的 某 个 时 间 点 ， 位 的 值 应 该 维持 第 一 个 操作 所 赋 邓 的。 换 句 话说 ,真正 的 原子 操作 需要 的 
， 是 一 所 有 中 间 结果 都 正确 无 误 。 
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. 例如 ， 假 定 给 出 两 个 原子 位 操作 : 先 对 某 位 置 位 ， 然 后 清 0。 如 果 没 有 原子 操作 ， 那 么 ， 
* 这 一 位 可 能 的 确 清 0 了， 但 是 也 可 能 根本 没有 置 位 。 置 位 操作 可 能 与 清除 操作 同时 发 生 ， 但 
.没有 成 功 。 清 除 操作 可 能 成 功 了 ， 这 一 位 如 愿 呈现 为 清 0。 但 是 ， 有 了 原子 操作 ， 置 位 会 真正 
“ 发 生 ， 可 能 有 那么 一 刻 ， 读 操作 显示 所 置 的 位 ， 然 后 清除 操作 才 执 行 ， 该 位 变 为 0 了 。 

” 这 种 行为 可 能 是 重要 的 ， 尤 其 当 顺 序 性 开始 起 作用 的 时 候 ， 或 者 当 操 作 硬 件 寄存 器 的 
”时 候 。 


内 核 还 提供 了 两 个 例 程 用 来 从 指定 的 地 址 开始 搜索 第 一 个 被 设置 〈 或 未 被 设置 ) 的 位 。 


int find first_bit(unsigned long *addr,unsigned int size) 
int find first zero bit (unsigned long *addr,unsigned int size) 


这 两 个 函数 中 第 一 个 参数 是 一 个 指针 ， 第 二 个 参数 是 要 搜索 的 总 位 数 ， 返 回 值 分 别 是 第 一 个 
被 设置 的 (或 没 被 设置 的 ) 位 的 位 号 。 如 果 你 的 搜索 范围 仅 限于 一 个 字 ， 使 用 _ffsQ 和 ffz0 这 两 
个 函数 更 好 ， 它 们 只 需要 给 定 一 个 要 搜索 的 地 址 做 参数 。 

与 原子 整数 操作 不 同 ， 代 码 一 般 无 法 选择 是 否 使 用 位 操作 ， 它 们 是 唯一 的 、 具 有 可 移植 性 
的 设置 特定 位 方法 ， 需 要 选择 的 是 使 用 原子 位 操作 还 是 非 原 子 位 操作 。 如 果 你 的 代码 本 身 已 经 
避免 了 竞争 条 件 ， 你 可 以 使 用 非 原 子 位 操作 ， 通 常 这 样 执行 得 更 快 ， 当 然 ， 这 还 要 取决 于 具体 
的 体系 结构 。 


10.2 自 旋 锁 


如 果 每 个 临界 区 都 能 像 增加 变量 这 样 简单 就 好 了 ， 可 惜 现 实 总 是 残酷 的 。 现 实 世界 里 ， 临 
界 区 甚至 可 以 跨越 多 个 函数 。 举 个 例子 ， 我 们 经 常会 磁 到 这 种 情况 : 先 得 从 一 个 数据 结构 中 移出 
数据 ， 对 其 进行 格式 转换 和 解析 ， 最 后 再 把 它 加 入 到 另 一 个 数据 结构 中 。 整 个 执行 过 程 必须 是 原 
子 的， 在 数据 被 更 新 完毕 前 ， 不 能 有 其 他 代码 读 取 这 些 数据 。 显 然 ， 简 单 的 原子 操作 对 此 无 能 为 
力 ， 这 就 需要 使 用 更 为 复杂 的 同步 方法 一 一 锁 来 提供 保护 。 

Linux 内 核 中 最 常见 的 锁 是 自 旋 锁 〈spin lock)。 自 旋 锁 最 多 只 能 被 一 个 可 执行 线程 持 有 。 如 
果 一 个 执行 线程 试图 获得 一 个 被 已 经 持 有 〈 即 所 谓 的 争 用 ) 的 自 旋 锁 ， 那 么 该 线程 就 会 一 直 进行 
忙 循环 一 旋转 一 等 待 锁 重 新 可 用 。 要 是 锁 未 被 争 用 ， 请 求 锁 的 执行 线程 便 能 立刻 得 到 它 ， 继 续 执 
行 。 在 任意 时 间 ， 自 旋 锁 都 可 以 防止 多 于 一 个 的 执行 线程 同时 进入 临界 区 。 同 一 个 锁 可 以 用 在 多 
个 位 置 ， 例 如 ， 对 于 给 定数 据 的 所 有 访问 都 可 以 得 到 保护 和 同步 。 

再 回 到 第 9 章 门 和 锁 的 例子 ， 自 旋 锁 相当 于 坐 在 门 外 等 待 同伴 从 里 面 出 来 ， 并 把 钥匙 交 给 
你 。 如 果 你 到 了 门口 ， 发 现 里 面 没有 人 ， 就 可 以 抓 到 钥匙 进入 房间 。 如 果 你 到 了 门口 发 现 里 面 正 
好 有 人 ， 就 必须 在 门 外 等 待 钥 匙 ， 不 断 地 检查 房间 是 否 为 空 。 当 房间 为 空 时 ， 你 就 可 以 抓 到 钥匙 
进入 。 正 是 因为 有 了 钥匙 〈 相 当 于 自 旋 锁 )， 才 人 允许 一 次 只 有 一 个 人 《相当 于 执行 线程 )》 进入 房 
间 〈 相 当 于 临界 区 )。 

一 个 被 争 用 的 自 旋 锁 使 得 请 求 它 的 线程 在 等 待 锁 重新 可 用 时 自 旋 (特别 浪费 处 理 器 时 间 )， 
这 种 行为 是 自 旋 锁 的 要 点 。 所 以 自 旋 锁 不 应 该 被 长 时 间 持 有 。 事 实 上 ， 这 点 正 是 使 用 自 旋 锁 的 初 
囊 : 在 短期 间 内 进行 轻 量 级 加 锁 。 还 可 以 采取 另外 的 方式 来 处 理 对 锁 的 争 用 : 让 请 求 线程 睡眠 ， 
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直到 锁 重 新 可 用 时 再 唤醒 它 。 这 样 处 理 器 就 不 必 循 环 等 待 ， 可 以 去 执行 其 他 代码 。 这 也 会 带 来 一 
定 的 开销 一 一 这 里 有 两 次 明显 的 上 下 文 切 换 ， 被 阻塞 的 线程 要 换 出 和 换 入 ， 与 实现 自 旋 锁 的 少数 
几 行 代码 相 比 ， 上 下 文 切换 当然 有 较 多 的 代码 。 因 此 ， 持 有 自 旋 锁 的 时 间 最 好 小 于 完成 两 次 上 下 
文 切换 的 耗 时 。 当 然 我 们 大 多 数 人 都 不 会 无 聊 到 去 测量 上 下 文 切换 的 耗 时 ， 所 以 我 们 让 持 有 自 旋 
锁 的 时 间 应 尽 可 能 的 短 就 可 以 了 人 S。 在 下 面 内 容 中 我 们 将 讨论 信号 量 ， 信 号 量 便 提供 了 上 述 第 二 
种 锁 机 制 ， 它 使 得 在 发 生 争 用 时 ， 等 待 的 线程 能 投入 睡眠， 而 不 是 旋转 。 


10.2.1 自 旋 锁 方法 


自 旋 锁 的 实现 和 体系 结构 密切 相关 ， 代 码 往往 通过 汇编 实现 。 这 些 与 体系 结构 相关 的 代码 定 
义 在 文件 <asm/spinlock.h> 中 ， 实 际 需 要 用 到 的 接口 定义 在 文件 <linux/spinlock.h> 中 。 自 旋 锁 的 
基本 使 用 形式 如 下 : 


DEFINE SPINLOCK (mr_ lock); 

Spin lock(gmr lock); 

/* 临界 区 ...*/ 

spin unlock (gmr_ lock); 

因为 自 旋 锁 在 同一 时 刻 至 多 被 一 个 执行 线程 持 有 ， 所 以 一 个 时 刻 只 能 有 一 个 线程 位 于 临界 区 
内 ， 这 就 为 多 处 理 器 机 器 提供 了 防止 并 发 访问 所 需 的 保护 机 制 。 注 意 在 单 处 理 器 机 器 上 ， 编 译 的 
时 候 并 不 会 加 入 自 旋 锁 。 它 仅仅 被 当做 一 个 设置 内 核 抢 占 机 制 是 否 被 启用 的 开关 。 如 果 禁 止 内 核 
抢占 ， 那 么 在 编译 时 自 旋 锁 会 被 完全 剔除 出 内 核 。 


六 警告 : 自 旋 锁 是 不 可 递归 的 ! 

Linux 内 核实 现 的 自 旋 锁 是 不 可 递归 的 ， 这 点 不 同 于 自 旋 锁 在 其 他 操作 系统 中 的 实现 。 所 
4 以 如 果 你 试图 得 到 一 个 你 正 持 有 的 锁 ， 你 必须 自 旋 ， 等 待 你 自己 释放 这 个 锁 。 但 你 处 于 自 旋 
。 忙 等 待 中 ， 所 以 你 永远 没有 机 会 释放 锁 ， 于 是 你 被 自己 锁 死 了 。 千 万 小 心 自 旋 锁 ! 


自 旋 锁 可 以 使 用 在 中 断 处 理 程序 中 《此 处 不 能 使 用 信号 量 ， 因 为 它们 会 导致 睡眠 )。 在 中 断 
处 理 程 序 中 使 用 自 旋 锁 时 ， 一 定 要 在 获取 锁 之 前 ， 首 先 禁止 本 地 中 断 〈 在 当前 处 理 器 上 的 中 断 请 
求 )， 否 则 ， 中 断 处 理 程 序 就 会 打 断 正 持 有 锁 的 内 核 代码 ， 有 可 能 会 试图 去 争 用 这 个 已 经 被 持 有 
的 自 旋 锁 。 这 样 一 来 ， 中 断 处 理 程序 就 会 自 旋 ， 等 待 该 锁 重 新 可 用 ， 但 是 锁 的 持 有 者 在 这 个 中 断 
处 理 程序 执行 完毕 前 不 可 能 运行 。 这 正 是 我 们 在 前 面 的 内 容 中 提 到 的 双重 请 求 死 锁 。 注 意 ， 需 要 
关闭 的 只 是 当前 处 理 器 上 的 中 断 。 如 果 中 新 发 生 在 不 同 的 处 理 器 上 ， 即 使 中 断 处 理 程 序 在 同一 锁 
上 自 旋 ， 也 不 会 妨碍 锁 的 持 有 者 〈 在 不 同 处理 器 上 ) 最 终 释放 锁 。 

内 核 提供 的 禁止 中 断 同 时 请 求 锁 的 接口 ， 使 用 起 来 很 方便 ， 方 法 如 下 。 


DEFINE SPINLOCK(mr _ Lock) 
unsigned long flags; 





spin lock irqsave (gmr lock,fags); 


/* 临界 区 . . .*/ 


日 “在 现在 的 抢占 式 内 核 中 ， 这 点 尤为 重要 。 锁 的 持 有 时 间 等 价 于 系统 的 调度 等 待 时 间 。 
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spin unlock irqrestore(g&mr lock,flags); 


函数 spin_lock_irqsave0 保存 中 断 的 当前 状态 ， 并 禁止 本 地 中 断 ， 然 后 再 去 获取 指定 的 锁 。 
反 过 来 spin_unlock_irqrestore() 对 指定 的 锁 解 锁 ， 然 后 让 中 断 恢复 到 加 锁 前 的 状态 。 所 以 即使 中 
断 最 初 是 被 禁止 的 ， 代 码 也 不 会 错误 地 激活 它们 ， 相 反 ， 会 继续 让 它们 禁止 。 注 意 ，flags 变量 
看 起 来 像 是 由 数值 传递 的 ， 这 是 因为 这 些 锁 函数 有 些 部 分 是 通过 宏 的 方式 实现 的 。 

在 单 处 理 器 系统 上 ， 虽 然 在 编译 时 抛弃 掉 了 锁 机 制 ， 但 在 上 面 例子 中 仍 需 要 关闭 中 断 ， 以 禁 
止 中 断 处 理 程 序 访问 共享 数据 。 加 锁 和 解锁 分 别 可 以 禁止 和 人 允许 内 核 抢占 。 


. 锁 什么 ? 
， 使 用 锁 的 时 候 一 定 要 对 症 下 药 ， 要 有 针对 性 。 要 知道 需要 保护 的 是 数据 而 不 是 代码 。 尽 
， 管 本 章 的 例子 讲 的 都 是 保护 临界 区 的 重要 性 ， 但 是 真正 保护 的 其 实 是 临界 区 中 的 数据 ， 而 不 
% 是 代码 。 

大 原则 : 针对 代码 加 锁 会 使 得 程序 难以 理解 ， 并 且 容 易 引发 竞争 条 件 ， 正 确 的 做 法 应 该 
| 是 对 数据 而 不 是 代码 加 锁 。 
“ 既然 不 是 对 代码 加 锁 ， 那 就 一 定 要 用 特定 的 锁 来 保护 自己 的 共享 数据 。 例 如 “stmuct foo 
”由 loo_lock 加 锁 ”。 无 论 你 何 时 需要 访问 共享 数据 ， 一 定 要 先 保证 数据 是 安全 的 。 而 保证 数据 
”安全 往往 就 意味 着 在 对 数据 进行 操作 前 ， 首 先 占用 恰当 的 锁 ， 完 成 操作 后 再 释放 它 。 


如 果 你 能 确定 中 断 在 加 锁 前 是 激活 的 ， 那 就 不 需要 在 解锁 后 恢复 中 断 以 前 的 状态 了 。 你 可 以 
无 条 件 地 在 解锁 时 激活 中 断 。 这 时 ， 使 用 spin_lock_irq() 和 spin_unlock irq0 会 更 好 一 些 。 


DEFINE SPINLOCK(mr lock); 





spin _ lock irq(&mr lock); 

/* 关键 节 */ 

spin unlock irq{(&mr_ lock); 

由 于 内 核 变 得 庞大 而 复杂 ， 因 此 ， 在 内 核 的 执行 路 线 上 ， 你 很 难 搞 清楚 中 断 在 当前 调用 点 上 
到 底 是 不 是 处 于 激活 状态 。 也 正 因为 如 此 ， 我 们 并 不 提倡 使 用 spin_lock_irq0 方法 。 如 果 你 一 定 
要 使 用 它 ， 那 你 应 该 确定 中 断 原 来 就 处 于 激活 状态 ， 否 则 当 其 他 人 期 望 中 断 处 于 未 激活 状态 时 却 
发 现 处 于 激活 状态 ， 可 能 会 非常 不 开心 。 


调试 自 旋 锁 

配置 选项 CONFIG_DEBUG_SPINLOCK 为 使 用 自 旋 锁 的 代码 加 入 了 许多 调试 检测 手段 。 
例如 ， 激 活 了 该 选项 ， 内 核 就 会 检查 是 否 使 用 了 未 初始 化 的 锁 ， 是 否 在 还 没 加 锁 的 时 候 就 要 对 
” 锁 执 行 开锁 操作 。 在 测试 代码 时 ， 总 是 应 该 激活 这 个 选项 。 如 果 需 要 进一步 全 程 调 试 锁 ， 还 应 
该 打开 CONFIG_DEBUG _LOCK_ALLOC 选项 。 


10.2.2 ”其 他 针对 自 旋 锁 的 操作 
你 可 以 使 用 spin_lock init0 方 法 来 初始 化 动态 创建 的 自 旋 锁 (此 时 你 只 有 一 个 指向 
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spinlock_t 类 型 的 指针 ， 没 有 它 的 实体 )。 

spin_try_lock0 试图 获得 某 个 特定 的 自 旋 锁 ， 如 果 该 锁 已 经 被 争 用 ， 那 么 该 方法 会 立刻 返回 
一 个 非 0 值 ， 而 不 会 自 旋 等 待 锁 被 释放 ; 如 果 成 功 地 获得 了 这 个 自 旋 锁 ， 该 函数 返回 0。 同 理 ， 
spin_is_locked0 方法 用 于 检查 特定 的 锁 当 前 是 否 已 被 占用 ， 如 果 已 被 占用 ， 返 回 非 0 值 ; 否则 返 
回 0。 该 方法 只 做 判断 ， 并 不 实际 占用 信 。 

表 10-4 给 出 了 标准 的 自 旋 锁 操作 的 完整 列表 。 


表 10-4 自 旋 锁 方 法 列表 


方 ”法 描 述 
spin_lock() 获取 指定 的 自 旋 锁 
spin_lock irqO 禁止 本 地 中 断 并 获取 指定 的 锁 
spin_lock_irqsave() 保存 本 地 中 断 的 当前 状态 ， 禁 止 本 地 中 断 ， 并 获取 指定 的 锁 
spin_unlock() 释放 指定 的 锁 
spin_unlock_irqO 释放 指定 的 锁 ， 并 激活 本 地 中 断 
spin_unlock_irqrestore() 释放 指定 的 锁 ， 并 让 本 地 中 断 恢复 到 以 前 状态 
spin_lock_initO 动态 初始 化 指定 的 spinlock t 
spin_trylock() 试图 获取 指定 的 锁 ， 如 果 未 获取 ， 则 返回 非 0 
spin_is_locked0 如 果 指 定 的 锁 当 前 正在 被 获取 ， 则 返回 非 0， 否 则 返回 0 


10.2.3 自 旋 锁 和 下 半 部 


在 第 8 章 中 曾经 提 到 ， 在 与 下 半 部 配合 使 用 时 ， 必 须 小 心地 使 用 锁 机 制 。 函 数 spin_lock_bh0O 用 
于 获取 指定 锁 ， 同 时 它 会 禁止 所 有 下 半 部 的 执行 。 相 应 的 spin_unlock_bh0 函数 执行 相反 的 操作 。 

由 于 下 半 部 可 以 抢占 进程 上 下 文中 的 代码 ， 所 以 当下 半 部 和 进程 上 下 文 共享 数据 时 ， 必 须 对 
进程 上 下 文中 的 共享 数据 进行 保护 ， 所 以 需要 加 锁 的 同时 还 要 禁止 下 半 部 执行 。 同 样 ， 由 于 中 断 
处 理 程 序 可 以 抢占 下 半 部 ， 所 以 如 果 中 断 处 理 程序 和 下 半 部 共享 数据 ， 那 么 就 必须 在 获取 恰当 的 
锁 的 同时 还 要 禁止 中 断 。 

回忆 一 下 ， 同 类 的 tasklet 不 可 能 同时 运行 ， 所 以 对 于 同类 tasklet 中 的 共享 数据 不 需要 保护 。 
但 是 当 数 据 被 两 个 不 同 种 类 的 tasklet 共享 时 ， 就 需要 在 访问 下 半 部 中 的 数据 前 先 获 得 一 个 普通 
的 自 旋 锁 。 这 里 不 需要 禁止 下 半 部 ， 因 为 在 同一 个 处 理 器 上 绝 不 会 有 tasklet 相互 强占 的 情况 。 

对 于 软 中 断 ， 无 论 是 否 同 种 类 型 ， 如 果 数 据 被 软 中 断 共 享 ， 那 么 它 必 须 得 到 锁 的 保护 。 这 是 
因为 ， 即 使 是 同 种 类 型 的 两 个 软 中 断 也 可 以 同时 运行 在 一 个 系统 的 多 个 处 理 器 上 。 但 是 ， 同 一 处 
理 器 上 的 一 个 软 中 断绝 不 会 抢占 另 一 个 软 中 断 ， 因 此 ， 根 本 没 必要 禁止 下 半 部 。 


10.3 读 - 写 自 旋 锁 
有 时 ， 锁 的 用 途 可 以 明确 地 分 为 读 取 和 写 人 两 个 场景 。 例 如 ， 对 一 个 链表 可 能 既 要 更 新 又 要 


日 ”这 两 个 方法 往往 让 代码 变 得 令 人 费解 ， 一 般 来 说 用 不 着 经 常 检 查 自 旋 锁 的 一 一 你 的 代码 本 身 应 该 要 么 直接 请 求 占用 
锁 ， 要 么 应 该 在 占用 锁 之 后 才能 被 调用 。 不 过 ， 它 们 还 是 有 些 合理 用 途 ， 所 以 Linux 内 核 也 就 提供 了 这 样 的 接口 。 
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检索 。 当 更 新 〈 写 入 ) 链表 时 ， 不 能 有 其 他 代码 并 发 地 写 链表 或 从 链表 中 读 取 数 据 ， 写 操作 要 求 
完全 互 斥 。 另 一 方面 ， 当 对 其 检索 〈 读 取 〉 链表 时 ， 只 要 其 他 程序 不 对 链表 进行 写 操作 就 行 了 。 
只 要 没有 写 操作 ， 多 个 并 发 的 读 操 作 都 是 安全 的 。 任 务 链 表 的 存 取 模 式 〈 在 第 3 章 中 讨论 过 ) 就 
非常 类 似 于 这 种 情况 ， 它 就 是 通过 读 一 写 自 旋 锁 获 得 保护 的 。 . 

当 对 某 个 数据 结构 的 操作 可 以 像 这 样 被 划分 为 读 / 写 或 者 消费 者 /生产 者 两 种 类 别 时 ， 类 
似 读 / 写 锁 这 样 的 机 制 就 很 有 帮助 了 。 为 此 ，Linux 内 核 提供 了 专门 的 读 - 写 自 旋 锁 。 这 种 自 
旋 锁 为 读 和 写 分 别提 供 了 不 同 的 锁 。 一 个 或 多 个 读 任务 可 以 并 发 地 持 有 读者 锁 ; 相反 ， 用 于 写 
的 锁 最 多 只 能 被 一 个 写 任务 持 有 ， 而 且 此 时 不 能 有 并 发 的 读 操作 。 有 时 把 读 / 写 锁 叫做 共享 / 
排斥 锁 ， 或 者 并 发 /排斥 锁 ， 因 为 这 种 锁 以 共享 〈 对 读者 而 言 ) 和 排斥 〈 对 写 者 而 言 ) 的 形式 
获得 使 用 。 

读 / 写 自 旋 锁 的 使 用 方法 类 似 于 普通 自 旋 锁 ， 它 们 通过 下 面 的 方法 初始 化 : 


DEFINE RWLOCK (mr rwlock); 


然后 ， 在 读者 的 代码 分 支 中 使 用 如 下 函数 : 


read lock (gmr rwlock); 
/* 临界 区 ( 只 读 )…*/ 


read unlock (gmr rwlock); 


最 后 ， 在 写 者 的 代码 分 支 中 使 用 如 下 函数 : 


write_lock (&mr rwlock); 

/* 临界 区 ( 读 写 )…*/ 

write unlock (gmr rwlock); 

通常 情况 下 ， 读 锁 和 写 锁 会 位 于 完全 分 割 开 的 代码 分 支 中 ， 如 上 例 所 示 。 
注意 ， 不 能 把 一 个 读 锁 “ 升 级 ”为 写 锁 。 比 如 考虑 下 面 这 段 代码 : 


read lock(&mr rwlock); 
write lock(gmr rwlock); 


执行 上 述 两 个 函数 将 会 带 来 死 锁 ， 因 为 写 锁 会 不 断 自 旋 ， 等 待 所 有 的 读者 释放 锁 ， 其 中 也 
包括 它 自 己 。 所 以 当 确 实 需要 写 操作 时 ， 要 在 一 开始 就 请 求 写 锁 。 如 果 写 和 读 不 能 清晰 地 分 开 的 
话 ， 那 么 使 用 一 般 的 自 旋 锁 就 行 了 ， 不 要 使 用 读 一 写 自 旋 锁 。 

多 个 读者 可 以 安全 地 获得 同一 个 读 锁 ， 事 实 上 ， 即 使 一 个 线程 递归 地 获得 同一 读 锁 也 是 安 
全 的 。 这 个 特性 使 得 读 一 写 自 旋 锁 真正 成 为 一 种 有 用 并 且 常 用 的 优化 手段 。 如 果 在 中 断 处 理 程 
序 中 只 有 读 操 作 而 没有 写 操作 ， 那 么 ， 就 可 以 混合 使 用 “中 断 禁止 ” 锁 ， 使 用 read_lock( 而 不 
是 read_lock irqsave() 对 读 进 行 保 护 。 不 过 ， 你 还 是 需要 用 write_ lock irqsave0O 禁止 有 写 操作 的 
中 断 ， 否 则 ， 中 汤 里 的 读 操作 就 有 可 能 锁 死 在 写 锁 上 人 S。 表 10-5 列 出 了 针对 读 一 写 自 旋 锁 的 所 
有 操作 。 


人 9 ”假如 读者 正在 进行 操作 ， 包 含 写 操作 的 中 断 发 生 了 ， 由 于 读 锁 还 没有 全 部 被 释放 ， 所 以 写 操作 会 自 旋 ， 而 读 
操作 只 能 在 包含 写 操 作 的 中 断 返 回 后 才能 继续 ， 释 放 读 锁 ， 此 时 死 锁 就 发 生 了 。 一 一 译 者 注 
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表 10-5 读 一 写 自 旋 锁 方 法 列表 


方 ”法 描 述 
read_lock0 获得 指定 的 读 锁 
read lock irq0 禁止 本 地 中 断 并 获得 指定 读 锁 
read_lock_irqsaveO 存储 本 地 中 断 的 当前 状态 ， 禁 止 本 地 中 断 并 获得 指定 读 锁 
read_unlock() 释放 指定 的 读 锁 
read_unlock_irq() 释放 指定 的 读 锁 并 激活 本 地 中 上 断 
read_unlock_irqrestore() 释放 指定 的 读 锁 并 将 本 地 中 新 恢复 到 指定 的 前 状态 
write_lock() 获得 指定 的 写 锁 
write_lock irq() 禁止 本 地 中 断 并 获得 指定 写 锁 
write_ lock irqsaveO 存储 本 地 中 断 的 当前 状态 ， 禁 止 本 地 中 断 并 获得 指定 写 锁 
write_unlock() 释放 指定 的 写 锁 
write_unlock irqO 释放 指定 的 写 锁 并 激活 本 地 中 断 


write_unlock irqrestore() 
write _trylockO 


rwlock_init() 


释放 指定 的 写 锁 并 将 本 地 中 断 恢复 到 指定 的 前 状态 
试图 获得 指定 的 写 锁 ; 如 果 写 锁 不 可 用 ， 返 回 非 0 值 





初始 化 指定 的 rwlock_t 


多 10 全 


在 使 用 Linux 读 一 写 自 旋 锁 时 ， 最 后 要 考虑 的 一 点 是 这 种 锁 机 制 照顾 读 比 照顾 写 要 多 一 点 。 
当 读 锁 被 持 有 时 ， 写 操作 为 了 互 斥 访问 只 能 等 待 ， 但 是 ， 读 者 却 可 以 继续 成 功 地 作 占 用 锁 。 而 自 
旋 等 待 的 写 者 在 所 有 读者 释放 锁 之 前 是 无 法 获得 锁 的 。 所 以 ， 大 量 读者 必定 会 使 挂 起 的 写 者 处 于 
饥饿 状态 ， 在 你 自己 设计 锁 时 一 定 要 记 住 这 一 点 一 一 有 些 时 候 这 种 行为 是 有 益 的 ， 有 时 则 会 带 来 
灾难 。 

自 旋 锁 提 供 了 一 种 快速 简单 的 锁 实现 方法 。 如 果 加 锁 时 间 不 长 并 且 代码 不 会 睡眠 《比如 中 
断 处理 程 序 )， 利 用 自 旋 锁 是 最 佳 选择 。 如 果 加 锁 时 间 可 能 很 长 或 者 代码 在 持 有 锁 时 有 可 能 睡眠 ， 
那么 最 好 使 用 信号 量 来 完成 加 锁 功能 。 


10.4 信和 号 量 


Linux 中 的 信号 量 是 一 种 睡眠 锁 。 如 果 有 一 个 任务 试图 获得 一 个 不 可 用 〈 已 经 被 占用 ) 的 信 
号 量 时 ， 信 号 量 会 将 其 推进 一 个 等 待 队 列 ， 然 后 让 其 睡眠 。 这 时 处 理 器 能 重 获 自 由 ， 从 而 去 执行 
其 他 代码 。 当 持 有 的 信号 量 可 用 (被 释放 〉 后 ， 处 于 等 待 队列 中 的 那个 任务 将 被 唤醒 ， 并 获得 该 
信号 量 。 

让 我 们 再 一 次 回 到 门 和 钥匙 的 例子 。 当 某 个 人 到 了 门 前 ， 他 抓 取 钥匙 ， 然 后 进入 房间 。 最 大 
的 差异 在 于 当 另 一 个 人 到 了 门 前 ， 但 无 法 得 到 钥匙 时 会 发 生 什么 情况 。 在 这 种 情况 下 ， 这 家 伙 不 
是 在 徘徊 等 待 ， 而 是 把 自己 的 名 字 写 在 一 个 列表 中 ， 然 后 打上 且 去 了 。 当 里 面 的 人 离开 房间 时 ， 就 
在 门口 查看 一 下 列表 。 如 果 列 表 上 有 名 字 ， 他 就 对 第 一 个 名 字 仔细 检查 ， 并 在 胸部 给 他 一 拳 ， 叫 
醒 他 ， 让 他 进入 房间 。 在 这 种 方式 中 ， 铀 匙 〈 相 当 于 信号 量 ) 继续 确保 一 次 只 有 一 个 人 〈 相 当 于 
执行 线程 》 进 入 房间 〈 相 当 于 临界 区 )。 这 就 比 自 旋 锁 提供 了 更 好 的 处 理 器 利用 率 ， 因 为 没有 把 
时 间 花 费 在 忙 等 待 上 ， 但 是 ， 信 号 量 比 自 旋 锁 有 更 大 的 开销 。 生 活 总 是 一 分 为 二 的 。 
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我 们 可 以 从 信号 量 的 睡眠 特性 得 出 一 些 有 意思 的 结论 : 

* 由 于 争 用 信号 量 的 进程 在 等 待 锁 重 新 变 为 可 用 时 会 睡眠 ， 所 以 信号 量 适 用 于 锁 会 被 长 时 间 

持 有 的 情况 。 

“ 相反 ， 锁 被 短 时 间 持 有 时 ， 使 用 信和 号 量 就 不 太 适 宜 了 。 因 为 睡眠 、 维 护 等 待 队 列 以 及 唤醒 

所 花费 的 开销 可 能 比 锁 被 占用 的 全 部 时 间 还 要 长 。 

* 由 于 执行 线程 在 锁 被 争 用 时 会 睡 卢 ， 所 以 只 能 在 进程 上 下 文中 才能 获取 信号 量 锁 ， 因 为 在 

中 断 上 下 文中 是 不 能 进行 调度 的 。 

“你 可 以 在 持 有 信号 量 时 去 睡眠 (当然 你 也 可 能 并 不 需要 睡 卢 )， 因 为 当 其 他 进程 试图 获得 同 

一 信号 量 时 不 会 因此 而 死 锁 《〈 因 为 该 进程 也 只 是 去 睡眠 而 已 ， 而 你 最 终 会 继续 执行 的 )。 

“ 在 你 占用 信和 号 量 的 同时 不 能 占用 自 旋 锁 。 因 为 在 你 等 待 信号 量 时 可 能 会 睡眠 ， 而 在 持 有 自 

旋 锁 时 是 不 允许 睡眠 的 。 

以 上 这 些 结论 闪 明 了 信号 量 和 自 旋 锁 在 使 用 上 的 差异 。 在 使 用 信号 量 的 大 多 数 时 候 ， 你 的 
选择 余地 并 不 大 。 往 往 在 需要 和 用 户 空间 同步 时 ， 你 的 代码 会 需要 睡 眼 ， 此 时 使 用 信号 量 是 唯一 
的 选择 。 由 于 不 受 睡眠 的 限制 ， 使 用 信号 量 通常 来 说 更 加 容易 一 些 。 如 果 需 要 在 自 旋 锁 和 信和 号 量 
中 做 选择 ， 应 该 根据 锁 被 持 有 的 时 间 长 短 做 判断 。 理 想 情 况 当 然 是 所 有 的 锁定 操作 都 应 该 越 短 越 
好 。 但 如 果 你 用 的 是 信号 量 ， 那 么 锁定 的 时 间 长 一 点 也 能 够 接受 。 另 外 ， 信 号 量 不 同 于 自 旋 锁 ， 
它 不 会 禁止 内 核 抢 占 ， 所 以 持 有 信号 量 的 代码 可 以 被 抢占 。 这 意味 着 信号 量 不 会 对 调度 的 等 待 时 
间 带 来 负面 影响 。 


10.4.1 计数 信号 量 和 二 值 信和 号 量 


最 后 要 讨论 的 是 信号 量 的 一 个 有 用 特性 ， 它 可 以 同时 允许 任意 数量 的 锁 持 有 者 ， 而 自 旋 锁 在 
一 个 时 刻 最 多 人 允许 一 个 任务 持 有 它 。 信 号 量 同时 允许 的 持 有 者 数量 可 以 在 声明 信和 号 量 时 指定 。 这 
个 值 称 为 使 用 者 数量 (usage count) 或 简单 地 叫 数量 〈count)。 通 常情 况 下 ， 信 和 号 量 和 自 旋 锁 一 
样 ， 在 一 个 时 刻 仅 允许 有 一 个 锁 持 有 者 。 这 时 计数 等 于 1， 这 样 的 信号 量 被 称 为 二 值 信号 量 〈 因 
为 它 或 者 由 一 个 任务 持 有 ， 或 者 根本 没有 任务 持 有 它 ) 或 者 称 为 互 斤 信 号 量 〈 因 为 它 强制 进行 互 
斥 )。 另 一 方面 ， 初 始 化 时 也 可 以 把 数量 设置 为 大 于 1 的 非 0 值 。 这 种 情况 ， 信 和 号 量 被 称 为 计数 
信号 量 〈counting semaphone)， 它 允许 在 一 个 时 刻 至 多 有 count 个 锁 持 有 者 。 计 数 信 和 号 量 不 能 用 
来 进行 强制 互 斥 ， 因 为 它 允 许多 个 执行 线程 同时 访问 临界 区 。 相 反 ， 这 种 信号 量 用 来 对 特定 代码 
加 以 限制 ， 内 核 中 使 用 它 的 机 会 不 多 。 在 使 用 信号 量 时 ， 基 本 上 用 到 的 都 是 互 斥 信号 量 〈 计 数 等 
于 1 的 信号 量 )。 

六 号 量 在 1968 年 由 Edsger Wybe Dijkstra 9 提出 ， 此 后 它 逐 渐 成 为 一 种 常用 的 锁 机 制 。 信 号 
量 支持 两 个 原子 操作 PO 和 VO， 这 两 个 名 字 来 自 荷 兰 语 Proberen 和 Vershogen。 前 者 叫做 测试 
操作 字面 意思 是 探查 )， 后 者 叫做 增加 操作 。 后 来 的 系统 把 两 种 操作 分 别 叫 做 down0 和 up0， 


日 Dijkstra 博士 《1930 一 2002) 是 计算 机 科学 史上 最 为 成 功 的 科学 家 之 一 ， 他 在 操作 系统 设计 、 算 法 理论 和 信号 
量 概念 的 创建 等 诸多 领域 做 出 了 卓越 的 贡献 。 他 生 于 荷兰 的 鹿特丹 ， 曾 在 克 萨 斯 大 学 任教 15 年 。 不 过 他 恐怕 
对 Linux 中 间 夹 杂 的 大 量 GOTO 语句 不 太 满 意 。 


154 荔 10 间 


Linux 也 遵从 这 种 叫 法 。down0 操作 通过 对 信号 量 计数 减 1 来 请 求 获得 一 个 信号 量 。 如 果 结 果 是 
0 或 大 于 0， 获 得 信号 量 锁 ， 任 务 就 可 以 进入 临界 区 。 如 果 结 果 是 负数 ， 任 务 会 被 放 入 等 待 队列 ， 
处 理 器 执行 其 他 任务 。 该 函数 如 同一 个 动词 ， 降 低 (down) 一 个 信号 量 就 等 于 获取 该 信号 量 。 
相反 ， 当 临界 区 中 的 操作 完成 后 ，up0 操作 用 来 释放 信和 号 量 ， 该 操作 也 被 称 作 是 提升 (upping) 
信号 量 ， 因 为 它 会 增加 信号 量 的 计数 值 。 如 果 在 该 信号 量 上 的 等 待 队列 不 为 空 ， 那 么 处 于 队列 中 
等 待 的 任务 在 被 唤醒 的 同时 会 获得 该 信号 量 。 


10.4.2 ”创建 和 初始 化 信号 量 


信号 量 的 实现 是 与 体系 结构 相关 的 ， 具 体 实现 定义 在 文件 <asm/semaphore.h> 中 。struct 
semaphore 类 型 用 来 表示 信号 量 。 可 以 通过 以 下 方式 静态 地 声明 信号 量 一 一 其 中 name 是 信和 号 量 
变量 名 ，count 是 信号 量 的 使 用 数量 : 


struct semaphore name; 
sema_init (gname, count); 


创建 更 为 普通 的 互 斥 信号 量 可 以 使 用 以 下 快捷 方式 ， 不 用 说 ，name 仍然 是 互 斥 信号 量 的 
变量 名 : 


static DECLARE MUTEX (name) ; 


更 常见 的 情况 是 ， 信 号 量 作为 一 个 大 数据 结构 的 一 部 分 动态 创建 。 此 时 ， 只 有 指向 该 动态 创 
建 的 信号 量 的 间接 指针 ， 可 以 使 用 如 下 函数 来 对 它 进行 初始 化 : 


sema_init (sem,count). 


sem 是 指针 ，count 是 信号 量 的 使 用 者 数量 。 
与 前 面 类 似 ， 初 始 化 一 个 动态 创建 的 互 斥 信号 量 时 使 用 如 下 函数 : 


init MUTEX (sem); 


我 不 明白 为 什么 “mutex” 在 init MUTEX() 中 是 大 写 ， 或 者 为 什么 “init” 在 这 个 函数 名 中 
放 在 前 面 ， 而 在 sesma_initO 中 放 在 后 面 。 不 知道 在 你 读 第 8 章 时 ， 有 没有 被 这 些 不 一 致 的 命名 方 
法 打 阅 呢 。 


10.4.3 ”使 用 信和 号 量 


国 数 down_interruptible() 试图 获取 指定 的 信号 量 ， 如 果 信 号 量 不 可 用 ， 它 将 把 调用 进程 置 成 
TASK_INTERRUPTIBLE 状态 一 一 进入 睡 卢 。 回 忆 第 3 章 的 内 容 ， 这 种 进程 状态 意味 着 任务 可 
以 被 信号 唤醒 ， 一般 来 说 这 是 件 好 事 。 如 果 进 程 在 等 待 获 取信 号 量 的 时 候 接收 到 了 信号 ， 那 么 
该 进程 就 会 被 唤醒 ， 而 函数 down_interruptible() 会 返回 -EINTR。 另 外 一 个 函数 down0 会 让 进 
程 在 TASK_UNINTERRUPTIBLE 状态 下 睡眠 。 你 应 该 不 希望 这 种 情况 发 生 ， 因 为 这 样 一 来 ， 
进程 在 等 待 信号 量 的 时 候 就 不 再 响应 信号 了 。 因 此 ， 使 用 down_interruptible( 比 使 用 downO 
更 为 普遍 (也 更 正确 )。 也 许 你 会 觉得 这 两 个 函数 名 字 起 得 有 点 不 恰当 ， 的 确 ， 这 些 命名 并 不 
很 理想 。 
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使 用 down_trylock0 函数 ， 你 可 以 尝试 以 堵塞 方式 来 获取 指定 的 信号 量 。 在 信号 量 已 被 占用 


要 释放 指定 的 信号 量 ， 需 要 调用 up0 函数 。 例 如 : 
/* 定义 并 声明 一 个 信号 量 ， 名 字 为 mr_sem， 用 于 信号 量 计 数 */ 
static DECLRRE MUTEX (mr sem); 


/* 试图 获取 信号 量 ... */ 
if (down interruptible(&mr_sem) ) 

/* 信号 被 接收 ， 信 号 量 还 未 获取 */ 
} 


/* 临界 区 ... */ 


/* 释放 给 定 的 信号 量 */ 


up (&mr_ sem); 
表 10-6 给 出 了 针对 信号 量 的 方法 的 完整 列表 。 
表 10-6 信和 号 量 方法 列表 


方 ” 法 描 述 
sema_init(struct semaphore *,int) 以 指定 的 计数 值 初始 化 动态 创建 的 信号 量 
init MUTEX(struct semaphore *) 以 计数 值 1 初始 化 动态 创建 的 信号 量 
以 计数 值 0 初始 化 动态 创建 的 信号 量 


init MUTEX_LOCKED(struct semaphore *) (初始 为 加 锁 状 态 ) 


以 试图 获得 指定 的 信号 量 ， 如 果 信 号 量 
已 被 争 用 ， 则 进入 可 中 断 睡 眠 状态 

以 试图 获得 指定 的 信号 量 ， 如 果 信 号 量 
已 被 争 用 ， 则 进入 不 可 中 断 睡眠 状 态 

以 试图 获得 指定 的 信号 量 ， 如 果 信 号 量 
已 被 争 用 ， 则 立刻 返回 非 0 值 

以 释放 指定 的 信号 量 ， 如 果 睡 眠 队列 不 空 ， 
则 唤醒 其 中 一 个 任务 


down_interruptible(struct semaphore *) 


down(struct semaphore *) 


down_tryiock(struct semaphore *) 


up(struct semaphore *) 


10.5 读 - 写 信号 量 


与 自 旋 锁 一 样 ， 信 号 量 也 有 区 分 读 一 写 访问 的 可 能 。 与 读 一 写 自 旋 锁 和 普通 自 旋 锁 之 间 的 


关系 差不多 ， 读 一 写 信号 量 也 要 比 普通 信号 量 更 具 优 势 。 


读 一 写 信 号 量 在 内 核 中 是 由 rw_semaphore 结构 表示 的 ， 定 义 在 文件 <linux/rwsem.h> 中 。 


通过 以 下 语句 可 以 创建 静态 声明 的 读 一 写 信 号 量 : 


static DECLARE RNWSEM (name); 


其 中 name 是 新 信号 量 名 。 


动态 创建 的 读 一 写 信 号 量 可 以 通过 以 下 函数 初始 化 : 
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init rwsem(struct rw_ semaphore *sem).. 


所 有 的 读 一 写 信号 量 都 是 互 斥 信号 量 一 “也 就 是 说 ， 它 们 的 引用 计数 等 于 1， 虽 然 它们 只 对 
写 者 互 斥 ， 不 对 读者 。 只 要 没有 写 者 ， 并 发 持 有 读 锁 的 读者 数 不 限 。 相 反 ， 只 有 唯一 的 写 者 〈 在 
没有 读者 时 ) 可 以 获得 写 锁 。 所 有 读 一 写 锁 的 睡眠 都 不 会 被 信号 打 断 ， 所 以 它 只 有 一 个 版 本 的 
down0) 操作 。 例 如 : 


static DECLRARE_RWSEM (mr_rwsem) ; 


/* 试图 获取 信号 量 用 于 读 ... */ 


down_ read (&mr_rwsem) ; 
/* 临界 区 (只 读 )...*/ 
/* 释放 信号 量 */ 


up_read (gmr rwsem); 


A 
/* 试图 获取 信号 量 用 于 写 ... */ 


down write(&mr rwsem); 
/* 临界 区 ( 读 和 写 ) . . .*/ 
/* 释放 信号 量 */ 


up_write(&mr sem); 

与 标准 信号 量 一 样 ， 读 一 写 信号 量 也 提供 了 down_read_trylock() 和 down_write_trylock0 方 
法 。 这 两 个 方法 都 需要 一 个 指向 读 一 写 信号 量 的 指针 作为 参数 。 如 果 成 功 获得 了 信号 量 锁 ， 它 
们 返回 非 0 值 ; 如 果 信 和 号 量 锁 被 争 用 ， 则 返回 0。 要 小 心 〈 不 知道 为 什么 要 这 样 ) 这 与 普通 信号 
量 的 情形 完全 相反 。 

读 一 写 信 号 量 相 比 读 一 写 自 旋 锁 多 一 种 特有 的 操作 : downgrade_write0 。 这 个 函数 可 以 动 
态 地 将 获取 的 写 锁 转 换 为 读 锁 。 

读 - 写 信号 量 和 读 - 写 自 旋 锁 一 样 ， 除 非 代 码 中 的 读 和 写 可 以 明白 无 误 地 分 割 开 来 ， 否 则 
最 好 不 使 用 它 。 再 强调 一 次 ， 读 一 写 机 制 使 用 是 有 条 件 的 ， 只 有 在 你 的 代码 可 以 自然 地 界定 出 
读 一 写 时 才 有 价值 。 


10.6 互 斥 体 


直到 最 近 ， 内 核 中 唯一 允许 睡眠 的 锁 是 信号 量 。 多 数 用 户 使 用 信号 量 只 使 用 计数 1， 说 白 了 
是 把 其 作为 一 个 互 斥 的 排他 锁 使 用 一 一 好 比 允许 睡眠 的 自 旋 锁 。 不 幸 的 是 ， 信 号 量 用 途 更 通用 ， 
没 多 少 使 用 限制 。 这 点 使 得 信号 量 适合 用 于 那些 较 复杂 的 、 未 明 情 况 下 的 互 尺 访问 ， 比 如 内 核 于 
用 户 空 间 复杂 的 交互 行为 。 但 这 也 意味 着 简单 的 锁定 而 使 用 信号 量 并 不 方便 ， 并 且 信 和 号 量 也 缺乏 
强制 的 规则 来 行使 任何 形式 的 自动 调试 ， 即 便 受 限 的 调试 也 不 可 能 。 为 了 找到 一 个 更 简单 睡眠 
锁 ， 内 核 开发 者 们 引入 了 互 斥 体 〈mutex)。 确 实 ， 这 个 名 字 容 易 和 我 们 的 习惯 称呼 混淆 。 所 以 这 
里 我 们 浴 清 一 下 ,“ 互 斥 体 (mutex)” 这 个 称谓 所 指 的 是 任何 可 以 睡眠 的 强制 互 斥 锁 ， 比 如 使 用 
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计数 是 1 的 信号 量 。 但 在 最 新 的 Linux 内 核 中 ,“ 互 斥 体 (mutex)” 这 个 称谓 现在 也 用 于 一 种 实 
现 互 斥 的 特定 睡眠 锁 。 也 就 是 说 ， 互 斥 体 是 一 种 互 斥 信号 。 

mutex 在 内 核 中 对 应 数据 结构 mutex， 其 行为 和 使 用 计数 为 1 的 信号 量 类 似 ， 但 操作 接口 更 
简单 ， 实 现 也 更 高 效 ， 而 且 使 用 限制 更 强 。 静 态 地 定义 mutex， 你 需要 做 : 


DEFINE MUTEX (name); 


动态 初始 化 mutex， 你 需要 做 : 


mutex init (gmutex); 


对 互 斥 锁 锁 定 和 解锁 并 不 难 : 


mutex lock (gmutex); 

/* 临界 区 */ 

mutex unlock (&mutex) ; 

看 到 了 吧 ， 它 就 是 一 个 简化 版 的 信号 量 ， 因 为 不 再 需要 管理 任何 使 用 计数 。 
表 10-7 是 基本 的 mutex 操作 列表 。 


表 10-7 Mutex 方法 


方 ” ”法 .描述 
mutex_lock(struct mutex *) 为 指定 的 mutex 上 锁 ， 如 果 销 不 可 用 则 睡眠 
mutex_unlock(struct mutex *) 为 指定 的 mutex 解锁 
mutex_trylock(struct mutex *) 试图 获取 指定 的 mutex， 如 果 成 功 则 返回 1 ; 否则 锁 被 获取 ， 返 回 值 是 0 
mutex_is_locked (struct mutex *) 如 果 锁 已 被 争 用 ， 则 返回 1 ; 否则 返回 0 


mutex 的 简洁 性 和 高 效 性 源 自 于 相 比 使 用 信号 量 更 多 的 受 限 性 。 它 不 同 于 信号 量 ， 因 为 
mutex 仅仅 实现 了 Dijkstra 设计 初衷 中 的 最 基本 的 行为 。 因 此 mutex 的 使 用 场景 相对 而 言 更 严格 、 
更 定向 了 。 

“任何 时 刻 中 只 有 一 个 任务 可 以 持 有 mutex， 也 就 是 说 ，mnutex 的 使 用 计数 永远 是 1。 

“给 mutex 上 锁 者 必须 负责 给 其 再 解锁 一 一 你 不 能 在 一 个 上 下 文中 锁定 一 个 mutex， 而 在 另 

一 个 上 下 文中 给 它 解 锁 。 这 个 限制 使 得 mutex 不 适合 内 核 同 用 户 空 间 复杂 的 同步 场景 。 最 

常 使 用 的 方式 是 : 在 同一 上 下 文中 上 锁 和 解锁 。 

。 递 归 地 上 锁 和 解锁 是 不 允许 的 。 也 就 是 说 ， 你 不 能 递归 地 持 有 同一 个 锁 ， 同 样 你 也 不 能 再 

去 解锁 一 个 已 经 被 解 开 的 mutex. 

。 当 持 有 一 个 mutex 时 ， 进 程 不 可 以 退出 。 

。mutex 不 能 在 中 断 或 者 下 半 部 中 使 用 ， 即 使 使 用 mutex_trylock0 也 不 行 。 

。mutex 只 能 通过 官方 API 管理 ; 它 只 能 使 用 上 节 中 描述 的 方法 初始 化 ， 不 可 被 拷贝 、 手 动 

初始 化 或 者 重复 初始 化 。 

也 许 mutex 结构 最 有 用 的 特色 是 : 通过 一 个 特殊 的 调试 模式 ， 内 核 可 以 采用 编程 方式 检查 
和 警告 任何 践踏 其 约束 法 则 的 不 老实 行为 。 当 打开 内 核 配置 选项 CONFIG_DEBUG_MUTEXES 
后 ， 就 会 有 多 种 检测 来 确保 这 些 〈 还 有 别 的 一 些 ) 约束 得 以 遵守 。 这 些 调试 手段 无 疑 能 帮助 你 和 
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其 他 mutex 使 用 者 们 都 能 以 规范 式 的 、 简 单 化 的 使 用 模式 对 其 使 用 。 


10.6.1 信号 量 和 互 斥 体 


互 斥 体 和 信号 量 很 相似 ， 内 核 中 两 者 共存 会 信人 混 底 。 所 幸 ， 它 们 的 标准 使 用 方式 都 有 简单 
的 规范 : 除非 mutex 的 某 个 约束 妨碍 你 使 用 ， 否 则 相 比 信号 量 要 优先 使 用 mutex。 当 你 写 新 代码 
时 ， 只 有 碰 到 特殊 场合 (一 般 是 很 底层 代码 ) 才 会 需要 使 用 信号 量 。 因 此 建议 首选 mutex。 如 果 
发 现 不 能 满足 其 约束 条 件 ， 且 没有 其 他 别 的 选择 时 ， 再 考虑 选择 信号 量 。 


10.6.2 ” 自 旋 锁 和 互 斥 体 


了 解 何 时 使 用 自 旋 锁 ， 何 时 使 用 互 斥 体 〈 或 信号 量 ) 对 编写 优良 代码 很 重要 ， 但 是 多 数 情 况 
下 ， 并 不 需要 太 多 的 考虑 ， 因 为 在 中 断 上 下 文中 只 能 使 用 自 旋 锁 ， 而 在 任务 睡眠 时 只 能 使 用 互 斥 
体 。 表 10-8 回顾 了 一 下 各 种 锁 的 需求 情况 。 


表 10-8 使 用 什么 : 自 旋 锁 与 信号 量 的 比较 


需 求 建议 的 加 锁 方法 
低 开 销 加 锁 优先 使 用 自 旋 锁 
短期 锁定 优先 使 用 自 旋 锁 
长 期 加 锁 优先 使 用 互 斥 体 
中 断 上 下 文中 加 锁 使 用 自 旋 锁 
持 有 锁 需 要 睡眠 使 用 互 斥 体 
10.7 “完成 变量 


如 果 在 内 核 中 一 个 任务 需要 发 出 信号 通知 另 一 任务 发 生 了 某 个 特定 事件 ， 利 用 完成 变量 
(completion variable〉 是 使 两 个 任务 得 以 同步 的 简单 方法 。 如 果 一 个 任务 要 执行 一 些 工 作 时 ， 另 
一 个 任务 就 会 在 完成 变量 上 等 待 。 当 这 个 任务 完成 工作 后 ， 会 使 用 完成 变量 去 唤醒 在 等 待 的 任 
务 。 这 听 起 来 很 像 一 个 信号 量 ， 的 确 如 此 一 一 思想 是 一 样 的 。 事 实 上 ， 完 成 变量 仅仅 提供 了 代替 
信号 量 的 一 个 简单 的 解决 方法 。 例 如 ， 当 子 进 程 执行 或 者 退出 时 ，vforkO 系统 调用 使 用 完成 变量 
唤醒 父 进程 。 

完成 变量 由 结构 completion 表示 ， 定 义 在 <linux/completion.h> 中 。 通 过 以 下 宏 静 态 地 创建 
完成 变量 并 初始 化 它 : 


DECLRARE_COMPLETION (mr_comp) ; 


通过 init_completion() 动态 创建 并 初始 化 完成 变量 。 

在 一 个 指定 的 完成 变量 上 ， 需 要 等 待 的 任务 调用 wait_for_ completion0 来 等 待 特定 事件 。 当 
特定 事件 发 生 后 ， 产 生 事件 的 任务 调用 complete0 来 发 送信 号 唤醒 正在 等 待 的 任务 。 表 10-9 列 
出 了 完成 变量 的 方法 。 
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表 10-9 ”完成 变量 方法 


方 ” ”法 描 述 
init_completion(struct completion *) 初始 化 指定 的 动态 创建 的 完成 变量 
wait_for_completion(struct completion *) 等 待 指定 的 完成 变量 接收 信号 
complete(struct completion *) 发 信号 唤醒 任何 等 待 任 务 


使 用 完成 变量 的 例子 可 以 参考 kernel/sched.c 和 kernel/fork.c。 完 成 变量 的 通常 用 法 是 ， 
将 完成 变量 作为 数据 结构 中 的 一 项 动态 创建 ， 而 完成 数据 结构 初始 化 工作 的 内 核 代 码 将 调用 
wait_for_completion() 进行 等 待 。 初 始 化 完成 后 ， 初 始 化 函数 调用 completion() 唤醒 在 等 待 的 
内 核 任务 。 


10.8 ”BLK : 大 内 核 锁 


欢迎 来 到 内 核 的 原始 混沌 时 期 。 BKL 〈 大 内 核 锁 ) 是 一 个 全 局 自 旋 锁 ， 使 用 它 主要 是 为 了 方 
便 实 现 从 Linux 最 初 的 SMP 过 滤 到 细 粒 度 加 锁 机 制 。 我 们 下 面 来 介绍 BKL 的 一 些 有 趣 的 特性 : 

“ 持 有 BKL 的 任务 仍然 可 以 睡眠 。 因 为 当 任务 无 法 被 调度 时 ， 所 加 锁 会 自动 被 委 弃 ; 当 任 

务 被 调度 时 ， 锁 又 会 被 重新 获得 。 当 然 ， 这 并 不 是 说 ， 当 任务 持 有 BKL 时 ， 睡 卢 是 安全 
的 ， 仅 仅 是 可 以 这 样 做 ， 因 为 睡眠 不 会 造成 任务 死 锁 。 

“BKL 是 一 种 递归 锁 。 一 个 进程 可 以 多 次 请 求 一 个 锁 ， 并 不 会 像 自 旋 锁 那样 产生 死 锁 现象 。 

*" BKL 只 可 以 用 在 进程 上 下 文中 。 和 自 旋 锁 不 同 ， 你 不 能 在 中 断 上 下 文中 申请 BLK。 

“ 新 的 用 户 不 允许 使 用 BLK。 随 着 内 核 版 本 的 不 断 前 进 ， 越 来 越 少 的 驱动 和 子 系统 再 依赖 于 

BLK 了 。 

这 些 特性 有 助 于 2.0 版 本 的 内 核 向 2.2 版 本 过 渡 。 在 SMP 支持 被 引入 到 2.0 版 本 时 ， 内 核 中 
一 个 时 刻 上 只 能 有 一 个 任务 运行 (当然 ， 经 过 长 期 发 展 ， 现 在 内 核 已 经 被 很 好 地 线程 化 了 )。2.2 
版 本 的 目标 是 允许 多 处 理 器 在 内 核 中 并 发 执行 程序 。 引 入 BKL 是 为 了 使 到 细 粒 度 加 锁 机 制 的 过 
渡 更 容易 些 ， 虽 然 当 时 BKL 对 内 核 过 渡 很 有 帮助 ， 但 是 目前 它 已 成 为 内 核 可 扩展 性 的 障碍 了 。 

在 内 核 中 不 鼓励 使 用 BKL。 事 实 上 ， 新 代码 中 不 再 使 用 BKL， 但 是 这 种 锁 仍 然 在 部 分 内 核 
代码 中 得 到 沿用 ， 所 以 我 们 仍然 需要 理解 BKL 以 及 它 的 接口 。 除 了 前 面 提 到 的 以 外 ，BKL 的 使 
用 方式 和 自 旋 锁 类 似 。 函 数 lock_kernel0 请 求 锁 ，unlock_kernel0 释放 锁 。 一 个 执行 线程 可 以 递 
归 的 请 求 锁 ， 但 是 ， 释 放 锁 时 也 必须 调用 同样 次 数 的 unlock_kernel0 操作 ， 在 最 后 一 个 解锁 操作 
完成 后 ， 锁 才 会 被 释放 。 函 数 kernel_locked0 检测 锁 当 前 是 否 被 持 有 ， 如 果 被 持 有 ， 返 回 一 个 非 
0 值 ， 否 则 返回 0。 这 些 接口 被 声明 在 文件 <linux/smp_lock.h> 中 ， 简 单 的 用 法 如 下 : 


lock kernel(); 
/ * 临界 区 ， 对 所 有 其 他 的 BLK 用 户 进行 同步 …… 
* 注意 ， 你 可 以 安全 地 在 此 睡 卢 ， 锁 会 悄 无 声息 地 被 释放 
* 当 你 的 任务 被 重新 调度 时 ， 锁 又 会 被 悄 无 声息 地 获取 
* 这 意味 着 你 不 会 处 于 死 锁 状态 ， 但 是 ， 如 果 你 需要 锁 保 护 这 里 的 数据 
* 你 还 是 不 需要 睡眠 
*/ 


unlock kernel(); 
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BKL 在 被 持 有 时 同样 会 禁止 内 核 抢占 。 在 单一 处 理 器 内 核 中 ，BKL 并 不 执行 实际 的 加 锁 操 
作 。 表 10-10 列 出 了 所 有 BKL 函数 。 


表 10-10 BKL 函数 列表 


尔 数 描 述 
lock_kemel0 获得 BKL 
unlock kernel0 释放 BKL 
kernel_ locked0 如 果 锁 被 持 有 返回 非 0 值 ， 否 则 返回 0 (UP 总 是 返回 非 0) 


对 于 BKL 最 主要 的 问题 是 确定 BKL 锁 保护 的 到 底 是 什么 。 多 数 情 况 下 ，BKL 更 像 是 保护 
代码 〈 如 “ 它 保 护 对 foo0 函数 的 调用 者 进行 同步 ”) 而 不 保护 数据 (如 “保护 结构 foo”)。 这 个 
问题 给 利用 自 旋 锁 取 代 BKL 造成 了 很 大 困难 ， 因 为 难以 判断 BKL 到 底 锁 的 是 什么 ， 更 难 的 是 ， 
发 现 所 有 使 用 BKL 的 用 户 之 间 的 关系 。 


10.9 顺序 锁 


顺序 锁 ， 通 常 简称 seq 锁 ， 是 在 2.6 版 本 内 核 中 才 引 入 的 一 种 新 型 锁 。 这 种 锁 提 供 了 一 种 很 
简单 的 机 制 ， 用 于 读 写 共 享 数 据 。 实 现 这 种 锁 主 要 依靠 一 个 序列 计数 器 。 当 有 疑义 的 数据 被 写 入 
时 ， 会 得 到 一 个 锁 ， 并 且 序 列 值 会 增加 。 在 读 取 数 据 之 前 和 之 后 ， 序 列 号 都 被 读 取 。 如 果 读 取 的 
序列 号 值 相同 ， 说 明 在 读 操作 进行 的 过 程 中 没有 被 写 操作 打 断 过 。 此 外 ， 如 果 读 取 的 值 是 偶数 ， 
那么 就 表明 写 操 作 没有 发 生 ( 要 明白 因为 锁 的 初 值 是 0， 所 以 写 锁 会 使 值 成 奇数 ， 释 放 的 时 候 变 
成 偶数 )。 

定义 一 个 seq 锁 : 


seqlock t mr seq_ lock = DEFINE SEQLOCK(mr_seq_lock); 


然后 ， 写 锁 的 方法 如 下 : 


WIIitLte_seqlock (gmr seq_ lock); 
/* 写 锁 被 获取 .. .*/ 
write sequnlock (gmr seq_ lock); 
这 和 普通 自 旋 锁 类 似 。 不 同 的 情况 发 生 在 读 时 ， 并 且 与 自 旋 锁 有 很 大 不 同 : 
unsigned long seqg; 
dof{ 
seq = read seqbegin(&mr seq_ lock); 
/* 读 这 里 的 数据 . . .*/ 
}while (read seqretry (&mr seq lock, seq)); 


在 多 个 读者 和 少数 写 者 共享 一 把 锁 的 时 候 ，seq 锁 有 助 于 提供 一 种 非常 轻 量 级 和 具有 可 扩展 
性 的 外 观 。 但 是 seq 锁 对 写 者 更 有 利 。 只 要 没有 其 他 写 者 ， 写 锁 总 是 能 够 被 成 功 获得 。 读 者 不 
会 影响 写 锁 ， 这 点 和 读 - 写 自 旋 锁 及 信号 量 一 样 。 另 外 ， 挂 起 的 写 者 会 不 断 地 使 得 读 操作 循环 
《前 一 个 例子 )， 直 到 不 再 有 任何 写 者 持 有 锁 为 止 。 

Seq 锁 在 你 遇 到 如 下 需求 时 将 是 最 理想 的 选择 : 
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* 你 的 数据 存在 很 多 读者 。 

。 你 的 数据 写 者 很 少 。 

“虽然 写 者 很 少 ， 但 是 你 希望 写 优 先 于 读 ， 而 且 不 允许 读者 让 写 者 饥饿。 

“你 的 数据 很 简单 ， 如 简单 结构 ， 甚 至 是 简单 的 整 型 一 一 在 某 些 场合 ， 你 是 不 能 使 用 原子 

量 的 。 

使 用 seq 锁 中 最 有 说 服 力 的 是 jifies。 该 变量 存储 了 Linux 机 器 启动 到 当前 的 时 间 (参见 第 
11 章 。Jiffies 是 使 用 一 个 64 位 的 变量 ， 记 录 了 自 系统 启动 以 来 的 时 钟 节拍 累加 数 。 对 于 那些 能 
自动 读 取 全 部 64 位 jiffhes_64 变量 的 机 器 来 说 ， 需 要 用 get_jiffies_640 方法 完成 ， 而 该 方法 的 实 
现 就 是 用 了 seq 锁 : 

u64 get jiffies 64(void) 

{ 


unsigned long seq; 
u64 ret; 


ao { 
seq = read seqbegin(&xtime lock); 
ret = jiffies 64; | 
} while (read seqretry(&xtime lock, seq)); 
return ret; 


} 
定时 器 中 断 会 更 新 jiffies 的 值 ， 此 刻 ， 也 需要 使 用 seq 锁 变量 : 


write seqlock (&xtime lock); 

jiffies 64 += 1; 

write sequnlock (gxtime lock); 

若 要 进一步 了 解 jiffies 和 内 核 时 间 管 理 ,请 看 第 11 章 和 内 核 源 码 树 中 的 kemeltimer.c 与 


kereltime/tick-common.c 文件 。 


10.10 ”禁止 抢占 


由 于 内 核 是 抢占 性 的 ， 内 核 中 的 进程 在 任何 时 刻 都 可 能 停 下 来 以 便 另 一 个 具有 更 高 优先 权 
的 进程 运行 。 这 意味 着 一 个 任务 与 被 抢占 的 任务 可 能 会 在 同一 个 临界 区 内 运行 。 为 了 避免 这 种 情 
况 ， 内 核 抢 占 代码 使 用 自 旋 锁 作 为 非 抢 占 区 域 的 标记 。 如 果 一 个 自 旋 锁 被 持 有 ， 内 核 便 不 能 进行 
抢占 。 因 为 内 核 抢 占 和 SMP 面 对 相 同 的 并 发 问题 ， 并 且 内 核 已 经 是 SMP 安全 的 (SMP-safe)， 
所 以 ， 这 种 简单 的 变化 使 得 内 核 也 是 抢占 安全 的 〈preempt-safe )。 

或 许 这 就 是 我 们 希望 的 。 实 际 中 ， 某 些 情 况 并 不 需要 自 旋 锁 ， 但 是 仍然 需要 关闭 内 核 抢 占 。 
最 频繁 出 现 的 情况 就 是 每 个 处 理 器 上 的 数据 。 如 果 数 据 对 每 个 处 理 器 是 唯一 的 ， 那 么 ， 这 样 的 数 
据 可 能 就 不 需要 使 用 锁 来 保护 ， 因 为 数据 只 能 被 一 个 处 理 器 访问 。 如 果 自 旋 锁 没有 被 持 有 ， 内 核 
又 是 抢占 式 的 ， 那 么 一 个 新 调度 的 任务 就 可 能 访问 同一 个 变量 ， 如 下 所 示 : 


任务 A 对 每 个 处 理 器 中 未 被 锁 保 护 的 变量 foo 进行 操作 
任务 A 被 抢占 
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任务 B 被 调度 

任务 B 操作 变量 foo 

任务 B 完成 

和 A 被 调度 

任务 A 继续 操作 变量 foo 

这 样 ， 即 使 这 是 一 个 单 处 理 器 计算 机 ， 变 量 foo 也 会 被 多 个 进程 以 伪 并 发 的 方式 访问 。 通 
常 ， 这 个 变量 会 请 求 得 到 一 个 自 旋 锁 (防止 多 处 理 器 机 器 上 的 真 并 发 )。 但 是 如 果 这 是 每 个 处 理 
器 上 独立 的 变量 ， 可 能 就 不 需要 锁 。 

为 了 解决 这 个 问题 ， 可 以 通过 preempt_ disable0 禁止 内 核 抢 占 。 这 是 一 个 可 以 嵌 套 调用 
的 函数 ， 可 以 调用 任意 次 。 每 次 调用 都 必须 有 一 个 相应 的 preempt_enable( 调用 。 当 最 后 一 次 
preempt_enable() 被 调用 后 ， 内 核 抢占 才 重 新 启用 。 例 如 : 


preempt disable(); 

/* 抢占 被 禁止 . . .*/ 

preempt _ enable(); 
”抢占 计数 存放 着 被 持 有 锁 的 数量 和 Preempt_disable0 的 调用 次 数 ， 如 果 计 数 是 0， 那 么 内 核 
可 以 进行 抢占 ; 如 果 为 1 或 更 大 的 值 ， 那 么 ， 内 核 就 不 会 进行 抢占 。 这 个 计数 非常 有 用 一 一 它 是 
一 种 对 原子 操作 和 睡眠 很 有 效 的 调试 方法 。 函 数 preempt_countO 返回 这 个 值 。 表 10-11 列 出 了 内 
核 抢占 相关 的 函数 。 


表 10-11 内核 抢占 的 相关 函数 


国 数 描 述 
preempt_disable() 增加 抢占 计数 值 ， 从 而 禁止 内 核 抢占 
减少 抢占 计数 ， 并 当 该 值 降 为 0 时 检查 和 执行 被 挂 起 的 
preempt_enable() 需 调 度 的 任务 
preempt_enable_no_resched() 激活 内 核 抢占 但 不 再 检查 任何 被 挂 起 的 需 调度 任务 
preempt_count() 返回 抢占 计数 


为 了 用 更 简洁 的 方法 解决 每 个 处 理 器 上 的 数据 访问 问题 ， 可 以 通过 get_cpu0 获得 处 理 器 编 
号 (假定 是 用 这 种 编号 来 对 每 个 处 理 器 的 数据 进行 索引 的 )。 这 个 函数 在 返回 当前 处 理 器 号 前 首 
先 会 关闭 内 核 抢占 。 

int cpu ; 

/* 楷 止 内 核 抢占 ， 并 将 CPU 设置 为 当前 处 理 器 */ 

cpu= get_cpu(); 

/* 对 每 个 处 理 器 的 数据 进行 操作 ...*/ 

/* 再 给 予 内 核 抢 占 性 , “CPU” 可 改变 故 它 不 再 有 效 */ 

put cup(); 


10.11 ”顺序 和 屏障 


当 处 理 多 处 理 器 之 间或 硬件 设备 之 间 的 同步 问题 时 ， 有 时 需要 在 你 的 程序 代码 中 以 指定 的 顺 
序 发 出 读 内 存 〈 读 人 ) 和 写 内 存 〈 存 储 ) 指令 。 在 和 硬件 交互 时 ， 时 常 需要 确保 一 个 给 定 的 读 操 
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作 发 生 在 其 他 读 或 写 操作 之 前 。 另 外 ， 在 多 处 理 器 上 ， 可 能 需要 按 写 数据 的 顺序 读数 据 (通常 确 
保 后 来 以 同样 的 顺序 进行 读 取 )。 但 是 编译 器 和 处 理 器 为 了 提高 效率 ， 可 能 对 读 和 写 重新 排序 ， 
这 样 无 疑 使 问题 复杂 化 了 。 幸 好 ， 所 有 可 能 重新 排序 和 写 的 处 理 器 提供 了 机 器 指令 来 确保 顺序 要 
求 。 同 样 也 可 以 指示 编译 器 不 要 对 给 定点 周围 的 指令 序列 进行 重新 排序 。 这 些 确保 顺序 的 指令 称 
作 屏 障 (barriers)。 

基本 上 ， 在 某 些 处 理 器 上 存在 以 下 代码 : 


2 

有 可 能 会 在 a 中 存放 新 值 之 前 就 在 b 中 存放 新 值 。 

编译 器 和 处 理 器 都 看 不 出 a 和 b 之 间 的 关系 。 编 译 器 会 在 编译 时 按 这 种 顺序 编译 ， 这 种 顺序 
会 是 静态 的 ， 编 译 的 目标 代码 就 只 把 a 放 在 b 之 前 。 但 是 ， 处 理 器 会 重新 动态 排序 ， 因 为 处 理 器 
在 执行 指令 期 间 ， 会 在 取 指令 和 分 派 时 ， 把 表面 上 看 似 无 关 的 指令 按 自 认为 最 好 的 顺序 排列 。 大 
多 数 情 况 下 ， 这 样 的 排序 是 最 佳 的 ， 因 为 a 和 b 之 间 没 有 明显 的 关系 。 尽 管 有 些 时 候 程 序 员 知道 
什么 是 最 好 的 顺序 。 

尽管 前 面 的 例子 可 能 被 重新 排序 ， 但 是 处 理 器 和 编译 器 绝 不 会 对 下 面 的 代码 重新 排序 : 


a= 1; 
b= a; 


此 处 a 和 均 为 全 局 变量 ， 因 为 a 与 b 之 间 有 明确 的 数据 依赖 关系 。 

但 是 不 管 是 编译 器 还 是 处 理 器 都 不 知道 其 他 上 下 文中 的 相关 代码 。 偶 然 情况 下 ， 有 必要 让 
写 操作 被 其 他 代码 识别 ， 也 让 所 期 望 的 指定 顺序 之 外 的 代码 识别 。 这 种 情况 常常 发 生 在 硬件 设备 
上 ， 但 是 在 多 处 理 器 机 器 上 也 很 常见 。 

rmb0 方法 提供 了 一 个 “ 读 ” 内 存 屏 障 ， 它 确保 跨越 rmb0 的 载 入 动作 不 会 发 生 重 排序 。 也 
就 是 说 ， 在 rmb0 之 前 的 载 人 操作 不 会 被 重新 排 在 该 调用 之 后 ， 同 理 ， 在 rmb0 之 后 的 载 入 操作 
不 会 被 重新 排 在 该 调用 之 前 。 

wmb0 方法 提供 了 一 个 “ 写 ” 内 存 屏障 ， 这 个 函数 的 功能 和 rmb0 类 似 ， 区 别 仅仅 是 它 是 针 
对 存储 而 非 载 和 一 一 它 确保 跨越 屏障 的 存储 不 发 生 重 排序 。 

mb() 方法 既 提 供 了 读 屏 障 也 提供 了 写 屏障 。 载 入 和 存储 动作 都 不 会 跨越 屏障 重新 排序 。 这 
是 因为 一 条 单独 的 指令 〈 通 常 和 rmb0 使 用 同一 个 指令 ) 既 可 以 提供 载 人 屏障 ， 也 可 以 提供 存储 
屏障 。 

read_barrier_depends() 是 rmb0 的 变种 ， 它 提供 了 一 个 读 屏 障 ， 但 是 仅仅 是 针对 后 续 读 操作 
所 依靠 的 那些 载 人 。 因 为 屏障 后 的 读 操作 依赖 于 屏障 前 的 读 操作 ， 因 此 ， 该 屏障 确保 屏障 前 的 
读 操作 在 屏障 后 的 读 操作 之 前 完成 。 明 白 了 吗 ? 基本 上 说 ， 该 函数 设置 一 个 读 屏 障 ， 如 rmb()， 
但 是 只 针对 特定 的 读 一 一 也 就 是 那些 相互 依赖 的 读 操作 。 在 有 些 体 系 结构 上 ，read_barrier 
depends() 比 rmb0 热 行 得 快 ， 因 为 它 仅仅 是 个 空 操作 ， 实 际 并 不 需要 。 








日 虽然 Intelx86 处 理 器 不 会 对 写 进行 重新 排序 ， 也 就 是 说 ， 它 不 进行 打 乱 顺序 的 存储 ， 但 是 其 他 处 理 串 会 这 么 做 。 
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看 看 使 用 了 mb0 和 rmb0 的 一 个 例子 ， 其 中 a 的 初始 值 是 1，b 的 初始 值 是 2。 
线程 1 线程 2 


a= 3}; 一 
mb () > 
b= 4; c= b; 
= mb () ; 
本 Q = a 

如 果 不 使 用 内 存 屏障 ， 在 某 些 处 理 器 上 ，c 可 能 接收 了 的 新 值 ， 而 d 接收 了 a 原来 的 值 。 
比如 c 可 能 等 于 4《〈 正 是 我 们 希望 的 )， 然 而 d 可 能 等 于 1 (不 是 我 们 希望 的 )。 使 用 mb0 能 确保 
a 和 bb 按照 预定 的 顺序 写 入 ， 而 rmb0 确保 c 和 d 按照 预定 的 顺序 读 取 。 

这 种 重 排 序 的 发 生 是 因为 现代 处 理 器 为 了 优化 其 传送 管道 (pipeline)， 打 乱 了 分 派 
和 提交 指令 的 顺序 。 如 果 上 例 中 读 入 a、b 时 的 顺序 被 打 乱 的 话 ， 又 会 发 生 什 么 情况 昵 ? 
rmb() 或 wmb() 函数 相当 于 指令 ， 它 们 告诉 处 理 器 在 继续 执行 前 提交 所 有 尚未 处 理 的 载 入 
或 存储 指令 。 | 

看 一 个 类 似 的 例子 ， 但 是 其 中 一 个 线程 用 read_barrier_depends() 代替 了 rmbO。 例 子 中 a 的 
初始 值 是 1,，b 是 2,，p 是 &b。 


了 


线程 1 线程 2 

a= 3; 一 

mb () ， 一 

p= &a; pp = p; 

二 read barrier depends()，; 
> b = *pp; 


再 一 次 声明 ， 如 果 没 有 内 存 屏 障 ， 有 可 能 在 pp 被 设置 成 p 前 ，b 就 被 设置 为 pp 了 。 由 于 载 
入 *pp 依靠 载 信 p， 所 以 read_barrier_depends() 提供 了 一 个 有 效 的 屏障 。 虽 然 使 用 rmb0 同样 有 
效 ， 但 是 因为 读 是 数据 相关 的 ， 所 以 我 们 使 用 read_barrier_depends() 可 能 更 快 。 注 意 ， 不 管 在 哪 
种 情况 下 ， 左 边 的 线程 都 需要 mb(0) 操作 来 确保 预定 的 载 入 或 存储 顺序 。 

宏 smp_rmb()、smp_wmb()、smp_mb() 和 smp_read_barrier depends(0) 提供 了 一 个 有 用 的 优化 。 
在 SMP 内 核 中 它们 被 定义 成 常用 的 内 存 屏 障 ， 而 在 单 处 理 机 内 核 中 ， 它 们 被 定义 成 编译 器 的 屏 
障 。 对 于 SMP 系统 ， 在 有 顺序 限定 要 求 时 ， 可 以 使 用 SMP 的 变种 。 

barrier() 方法 可 以 防止 编译 器 跨 屏 障 对 载 人 或 存储 操作 进行 优化 。 编 译 器 不 会 重新 组 
织 存 储 或 载 人 操作 ， 而 防止 改变 C 代码 的 效果 和 现 有 数据 的 依赖 关系 。 但 是 ， 它 不 知道 在 当 
前 上 下 文 之 外 会 发 生 什么 事 。 例 如 ， 编 译 器 不 可 能 知道 有 中 断 发 生 ， 这 个 中 断 有 可 能 在 读 取 
正在 被 写 和 人 的 数据 。 这 时 就 要 求 存 储 操作 发 生 在 读 取 操 作 前 。 前 面 讨 论 的 内 存 屏障 可 以 完成 
编译 器 屏障 的 功能 ， 但 是 编译 器 屏障 要 比 内 存 屏障 轻 量 〈 它 实际 上 是 轻快 的 ) 得 多 。 实 际 上 ， 
编译 器 屏障 几乎 是 空闲 的 ， 因 为 它 只 防止 编译 器 可 能 重 排 指令 。 

表 10-12 给 出 了 内 核 中 所 有 体系 结构 提供 的 完整 的 内 存 和 编译 器 屏障 方法 。 


内 横 同 步 廊 潜 165 





表 10-12 ”内存 和 编译 器 屏障 方法 


屏 障 描 述 
rmb() 阻止 跨越 屏障 的 载 入 动作 发 生 重 排序 
read_barrier depends() 阻止 跨越 屏障 的 具有 数据 依赖 关系 的 载 人 动作 重 排序 
wmbO 阻止 跨越 屏障 的 存储 动作 发 生 重 排 序 
mbO 阻止 跨越 屏障 的 载 和 和 存储 动作 重新 排序 
smp_rmbO 在 SMP 上 提供 rmb0 功能 ， 在 UP 上 提供 barrier0 功能 
smp_read_barrier_ dependsO 在 SMP 上 提供 read_barrier depends0 功能 ， 在 UP 上 提供 barrier0 功能 
smp_wmbO 在 SMP 上 提供 wmb0 功能 ， 在 UP 上 提供 barrier0 功能 
smp_mb() 在 SMP 上 提供 mb0 功能 ， 在 UP 上 提供 barrier0 功能 
barrierO 阻止 编译 器 跨 屏 障 对 载 入 或 存储 操作 进行 优化 


注意 ， 对 于 不 同体 系 结构 ， 屏 障 的 实际 效果 差别 很 大 。 例 如 ， 如 果 一 个 体系 结构 不 执行 打 
乱 存 储 〈 如 Intel x86 芯片 就 不 会 )， 那 么 wmb0 就 什么 也 不 做 。 但 应 该 为 最 坏 的 情况 〈 即 排序 
能 力 最 弱 的 处 理 器 ) 使 用 恰当 的 内 存 屏 项 ， 这 样 代码 才能 在 编译 时 执行 针对 体系 结构 的 优化 。 
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本 章 应 用 了 第 9 章 的 概念 和 原理 ， 这 使 得 你 能 理解 Linux 内 核 用 于 同步 和 并 发 的 具体 方法 。 
我 们 一 开始 先 讲述 了 最 简单 的 确保 同步 的 方法 一 一 原子 操作 ， 然 后 考察 了 自 旋 锁 ， 这 是 内 核 中 最 
普通 的 锁 ， 它 提供 了 轻 量 级 单独 持 有 者 的 锁 ， 即 争 用 时 忙 等 。 我 们 接着 还 讨论 了 信号 量 〈 这 是 一 
种 睡眠 锁 ) 以 及 更 通用 的 衍生 锁 一 一 mutex。 至 于 专用 的 加 锁 原 语 像 完成 变量 、seq 锁 ， 只 是 稍稍 
提 及 。 我 们 取笑 BLK， 考 察 了 禁止 抢占 ， 并 理解 了 屏障 ， 它 曾 难 以 驾驭 。 

以 第 9 章 和 第 10 章 的 同步 方法 为 基础 ， 就 可 以 编写 避免 竞争 条 件 、 确 保 正 确 同步 ， 而 且 能 
在 多 处 理 器 上 安全 运行 的 内 核 代 码 了 。 


第 人 章 
定时 器 和 时 间 管 理 


时 间 管 理 在 内 核 中 占有 非常 重要 的 地 位 。 相 对 于 事件 驱动 9 而 言 ， 内 核 中 有 大 量 的 函数 都 是 
基于 时 间 驱 动 的 。 其 中 有 些 函 数 是 周期 执行 的 ， 像 对 调度 程序 中 的 运行 队列 进行 平衡 调整 或 对 屏 
幕 进行 刷新 这 样 的 函数 ， 都 需要 定期 执行 ， 比 如 说 ， 每 秒 执行 100 次 ; 而 另外 一 些 函 数 ， 比 如 需 
要 推 后 执行 的 磁盘 IO 操作 等 ， 则 需要 等 待 一 个 相对 时 间 后 才 运 行 一 一 比如 说 ， 内 核 会 在 500ms 
后 再 执行 某 个 任务 。 除 了 上 述 两 种 函数 需要 内 核 提供 时 间 外 ， 内 核 还 必须 管理 系统 的 运行 时 间 以 
及 当前 日 期 和 时 间 。 

请 注意 相对 时 间 和 绝对 时 间 之 间 的 差别 。 如 果 某 个 事件 在 5s 后 被 调度 执行 ， 那 么 系统 所 需 
要 的 不 是 绝对 时 间 ， 而 是 相对 时 间 〈 比 如 ， 相 对 现在 起 5s 后 ) ; 相反 ， 如 果 要 求 管理 当前 日 期 和 
当前 时 间 ， 则 内 核 不 但 要 计算 流逝 的 时 间 而 且 还 要 计算 绝对 时 间 。 所 以 这 两 种 时 间 概 念 对 内 核 时 
间 管 理 来 说 都 至 关 重要 。 

另外 ， 还 请 注意 周期 性 产生 的 事件 与 内 核 调度 程序 推迟 到 某 个 确定 点 执行 的 事件 之 间 的 差 
别 。 周 期 性 产生 的 事件 一 一 比如 每 10ms 一 次 一 一 都 是 由 系统 定时 器 驱动 的 。 系 统 定 时 器 是 一 种 
可 编程 硬件 芯片 ， 它 能 以 固定 频率 产生 中 断 。 该 中 断 就 是 所 谓 的 定时 器 中 断 ， 它 所 对 应 的 中 断 处 
理 程 序 负责 更 新 系统 时 间 ， 也 负责 执行 需要 周期 性 运行 的 任务 。 系 统 定时 器 和 时 钟 中 断 处 理 程序 
是 Linux 系统 内 核 管理 机 制 中 的 中 枢 ， 本 章 将 着 重 讨论 它们 。 

本 章 关注 的 另外 一 个 焦点 是 动态 定时 器 种 用 来 推迟 执行 程序 的 工具 。 比 如 说 ， 如 果 软 
驱 马 达 在 一 定时 间 内 都 未 活动 ， 那 么 软盘 驱动 程序 会 使 用 动态 定时 器 关闭 软驱 马达 。 内 核 可 以 动 
态 创 建 或 撤销 动态 定时 器 。 本 章 将 介绍 动态 定时 器 在 内 核 中 的 实现 ， 同 时 给 出 在 内 核 代码 中 可 供 
使 用 的 定时 器 接口 。 


11.1 内 核 中 的 时 间 概 念 


时 间 概 念 对 计算 机 来 说 有 些 模 糊 ， 事 实 上 内 核 必 须 在 硬件 的 帮助 下 才能 计算 和 管理 时 间 。 
硬件 为 内 核 提供 了 一 个 系统 定时 器 用 以 计算 流逝 的 时 间 ， 该 时 钟 在 内 核 中 可 看 成 是 一 个 电子 时 
间 资 源 ， 比 如 数字 时 钟 或 处 理 器 频率 等 。 系 统 定时 器 以 某 种 频率 自行 触发 (经 常 被 称 为 击 中 
Chitting) 或 射 中 (popping)) 时 钟 中 断 ， 该 频率 可 以 通过 编程 预定 ， 称 作 节 拍 率 (tick rate)。 当 
时 钟 中 断 发 生 时 ， 内 核 就 通过 一 种 特殊 的 中 断 处 理 程 序 对 其 进行 处 理 。 

因为 预 编 的 节拍 率 对 内 核 来 说 是 可 知 的 ， 所 以 内 核 知道 连续 两 次 时 钟 中 断 的 间隔 时 间 。 这 





日 更 准确 地 讲 ， 时 间 驱 动 事件 也 属于 事件 驱动 的 一 种 一 时 间 的 流逝 本 身 就 是 一 种 事件 。 然 而 ， 由 于 时 间 驱 动 
的 频率 非常 高 ， 且 对 内 核 而 言 至 关 重 要 ， 因 此 ， 本 章 中 我 们 仅仅 分 析 时 间 驱 动 事件 。 
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个 间隔 时 间 就 称 为 节拍 (tick)， 它 等 于 节拍 率 分 之 一 1/tick rate)) 秒 。 正 如 你 所 看 到 的 ， 内 
核 就 是 靠 这 种 已 知 的 时 钟 中 断 闻 隔 来 计算 墙 上 时 间 和 系统 运行 时 间 的 。 墙 上 时 间 (也 就 是 实际 时 
间 ) 对 用 户 空间 的 应 用 程序 来 说 是 最 重要 的 。 内 核 通过 控制 时 钟 中 断 维护 实际 时 间 ， 另 外 内 核 也 
为 用 户 空间 提供 了 一 组 系统 调用 以 获取 实际 日 期 和 实际 时 间 。 系统 运行 时 间 〈 自 系统 启动 开始 所 
经 的 时 间 ) 对 用 户 空间 和 内 核 都 很 有 用 ， 因 为 许多 程序 都 必须 清楚 流逝 的 时 间 。 通 过 两 次 (现在 
和 以 后 ) 读 取 运行 时 间 再 计算 它们 的 差 ， 就 可 以 得 到 相对 的 流逝 的 时 间 了 。 

“时 钟 中 断 对 于 管理 操作 系统 尤为 重要 ， 大 量 内 核 函 数 的 生命 周期 都 离 不 开 流逝 的 时 间 的 控 

制 。 下 面 给 出 一 些 利用 时 间 中 断 周期 执行 的 工作 : 

.更 新 系统 运行 时 间 。 

.更 新 实际 时 间 。 

. 在 smp 系统 上 ， 均 衡 调度 程序 中 各 处 理 器 上 的 运行 队列 。 如 果 运 行 队列 负载 不 均衡 的 话 ， 

尽量 使 它们 均衡 〈 在 第 4 章 中 讨论 过 )。 了 

.检查 当前 进程 是 否 用 尽 了 自己 的 时 间 片 。 如 果 用 尽 ， 就 重新 进行 调度 〈 在 第 4 章 中 讨论 过 )。 

。 运行 超时 的 动态 定时 器 。 

.更 新 资源 消耗 和 处 理 器 时 间 的 统计 值 。 


这 其 中 有 些 工作 在 每 次 的 时 钟 中 断 处 理 程序 中 都 要 被 处 理 一 一 也 就 是 说 ， 这 些 工作 随时 钟 的 
频率 反复 运行 。 另 一 些 也 是 周期 性 地 执行 ， 但 只 需要 每 n 次 时 钟 中 断 运行 一 次 ， 也 就 是 说 ， 这 些 
函数 在 累计 了 一 定数 量 的 时 钟 节 拍 数 时 才 被 执行 。 在 “定时 器 中 汤 处 理 程 序 ” 这 一 小 节 中 ， 我 们 
将 详细 讨论 时 钟 中 断 处 理 程序 。 


11.2 节拍 率 : HZ 


系统 定时 器 频率 〈 拍 率 ) 是 通过 静态 预 处 理 定义 的 ， 也 就 是 HZ (赫兹 )， 在 系统 启动 时 
按照 HZ 值 对 硬件 进行 设置 。 体 系 结构 不 同 ，HZ 的 值 也 不 同 ， 实 际 上 ， 对 于 某 些 体系 结构 来 说 ， 
甚至 是 机 器 不 同 ， 它 的 值 都 会 不 一 样 。 

内 核 在 <asm/param.h> 文件 中 定义 了 这 个 值 。 节 拍 率 有 一 个 HZ 频率， 一 个 周期 为 /HZ 
秒 。 例 如 ，x86 体系 结构 中 ， 系 统 定 时 器 频率 默认 值 为 100。 因 此 ，x86 上 时 钟 中 断 的 频率 就 为 
100HZ， 也 就 是 说 在 i386 处 理 上 的 每 秒 钟 时 钟 中 断 100 次 〈 百 分 之 一 秒 ， 即 每 10ms 产生 一 次 )。 
但 其 他 体系 结构 的 节拍 率 为 250 和 1000， 分 别 对 应 4ms 和 lms。 表 11-1 给 出 了 各 种 体系 结构 与 
各 自 对 应 节拍 率 的 完整 列表 。 

编写 内 核 代 码 时 ， 不 要 认为 HZ 值 是 一 个 固定 不 变 的 值 。 这 不 是 一 个 常见 的 错误 ， 因 为 大 多 
数 体 系 结构 的 节拍 率 都 是 可 调 的 。 但 是 在 过 去 ， 只 有 Alpha 一 种 机 型 的 节拍 率 不 等 于 100， 所 以 
很 多 本 该 使 用 HZ 的 地 方 ， 都 错误 地 在 代码 中 直接 硬 编码 〈hard-code) 成 100 这 个 值 。 稍 后 ， 我 
们 会 给 出 内 核 代 码 中 使 用 HZ 的 例子 。 

正如 我 们 所 看 到 的 ， 时 钟 中 断 能 处 理 许多 内 核 任务 ,所 以 它 对 内 核 来 说 极为 重要 。 事 实 上 ， 
内 核 中 的 全 部 时 间 概 念 都 来 源 于 周期 运行 的 系统 时 钟 。 所 以 选择 一 个 合适 的 频率 ， 就 如 同 在 人 际 
交往 中 建立 和 谐 关系 一 样 ， 必 须 取得 各 方面 的 折 中 。 
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表 11-1 时 钟 中 断 频 率 


体系 结构 频率 /HZ 

Alpha 1024 
Arm 100 
avr32 100 
Blackfin 100 
Cris 100 
h8300 100 
ia64 1 024 
m32r 100 
m68k 100 
m68knommu 50，100 或 1000 
Microblaze 100 
Mips 100 
mn10300 100 
parisc 100 
powerpc 100 
Score 100 
s390 100 
Sh 100 
sparc 100 
Um 100 
x86 100 


11.2.1 理想 的 HZ 值 


自 Linux 问世 以 来 ，i386 体系 结构 中 时 钟 中 断 频率 就 设 定 为 100HZ， 但 是 在 2.5 开发 版 内 核 
中 ， 中 断 频 率 被 提高 到 1000HZ。 当 然 ， 是 否 应 该 提高 频率 〈 如 同 其 他 绝 大 多 数 事 情 一 样 ) 是 饱 
受 争 议 的 。 由 于 内 核 中 众多 子 系统 都 必须 依赖 时 钟 中 断 工 作 ， 所 以 改变 中 断 频 率 必 然 会 对 整个 系 
统 造成 很 大 的 冲击 。 但 是 ， 任 何事 情 总 是 有 两 面 性 的 ， 我 们 接 下 来 就 来 分 析 系统 定时 器 使 用 高 频 
率 与 使 用 低频 率 各 有 哪些 优 劣 。 

提高 节拍 率 意味 着 时 钟 中 断 产 生得 更 加 频繁 ， 所 以 中 断 处 理 程序 也 会 更 频繁 地 执行 。 如 此 一 
来 会 给 整个 系统 带 来 如 下 好 处 : 

。 更 高 的 时 钟 中 断 解 析 度 (resolution) 可 提高 时 间 驱 动 事件 的 解析 度 。 

。 提 高 了 时 间 驱 动 事件 的 准确 度 (accuracy )。 

提高 节拍 率 等 同 于 提高 中 断 解析 度 。 比 如 HZ=100 的 时 钟 的 执行 粒度 为 10ms， 即 系统 中 的 
周期 事件 最 快 为 每 10ms 运行 一 次 ， 而 不 可 能 有 更 高 的 精度 9， 但 是 当 HZ=1000 时 ， 解 析 度 就 为 


日” 这 里 所 说 的 是 计算 机 意义 上 的 精度 ， 而 不 是 科学 意义 上 的 精度 。 科 学 意义 上 的 精度 是 统计 反复 性 的 量度 ， 在 
计算 机 领域 和 内， 精度 是 表示 一 个 值 的 有 效 位 的 个 数 。 
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lms 一 一 精细 了 10 倍 。 虽 然 内 核 可 以 提供 频 度 为 lms 的 时 钟 ， 但 是 并 没有 证 据 显示 对 系统 中 所 
有 程序 而 言 ， 频 率 为 1000Hz 的 时 钟 率 相 比 频率 为 100Hz 的 时 钟 都 更 合适 。 

另外 ， 提 高 解析 度 的 同时 也 提高 了 准确 度 。 假 定 内 核 在 某 个 随机 时 刻 触发 定时 器 ， 而 它 可 能 
在 任何 时 间 超时 ， 但 由 于 只 有 在 时 钟 中 断 到 来 时 才 可 能 执行 它 ， 所 以 平均 误差 大 约 为 半 个 时 钟 中 
断 周期 。 比 如 说 ， 如 果 时 钟 周 期 为 HZ=100， 那 么 事件 平均 在 设 定 时 刻 的 +/ 一 5ms 内 发 生 ， 所 以 
平均 误差 为 5ms。 如 果 HZ=1000， 那 么 平均 误差 可 降低 到 0.Sms 一 一 准确 度 提 高 了 10 倍 。 


11.2.2 高 HZ 的 优势 


更 高 的 时 钟 中 断 频 度 和 更 高 的 准确 度 又 会 带 来 如 下 优点 : 

。 内 核定 时 器 能 够 以 更 高 的 频 度 和 更 高 的 准确 度 ( 它 带 来 了 大 量 的 好 处 ， 下 一 条 便 是 其 中 之 

一 ) 运行 。 

。 依赖 定 时 值 执行 的 系统 调用 ， 比 如 poll( 和 selectO)， 能 够 以 更 高 的 精度 运行 。 

“对 诸如 资源 消耗 和 系统 运行 时 间 等 的 测量 会 有 更 精细 的 解析 度 。 

* 提高 进程 抢占 的 准确 度 。 

对 poll( 和 select0 超时 精度 的 提高 会 给 系统 性 能 带 来 极 大 的 好 处 。 提 高 精度 可 以 大 幅度 提 
高 系统 性 能 。 频 繁 使 用 上 述 两 种 系统 调用 的 应 用 程序 ， 往 往 在 等 待 时 钟 中 断 上 浪费 大 量 的 时 间 ， 
而 事实 上 ， 定 时 值 可 能 早 就 超时 了 。 回 忆 一 下 ， 平 均 误 差 〈 也 就 是 ， 可 能 浪费 的 时 间 ) 可 是 时 钟 
中 断 周期 的 一 半 。 

更 高 的 准确 率 也 使 进程 抢占 更 准确 ， 同 时 还 会 加 快 调 度 响 应 时 间 。 第 4 章 中 提 到 过 ， 时 钟 中 
断 处 理 程序 负责 减少 当前 进程 的 时 间 片 计数 。 当 时 间 片 计数 跌 到 0 时， 而 又 设置 了 need_resched 
标志 的 话 ， 内 核 便 立 刻 重新 运行 调度 程序 。 假 定 有 一 个 正在 运行 的 进程 ， 它 的 时 间 片 只 剩 下 2ms 
了 ， 此 时 调度 程序 又 要 求 抢 占 该 进程 ， 然 后 去 运行 另 一 个 新 进程 ; 然而 ， 该 抢占 行为 不 会 在 下 一 
个 时 钟 中 断 到 来 前 发 生 ， 也 就 是 说 ， 在 这 2ms 内 不 可 能 进行 抢占 。 实 际 上 ， 对 于 频率 为 100HZ 
的 时 钟 来 说 ， 最 坏 要 在 10ms 后 ， 当 下 一 个 时 钟 中 断 到 来 时 才能 进行 抢占 ， 所 以 新 进程 也 就 可 能 
要 比 要 求 的 晚 10ms 才能 执行 。 当 然 ， 进 程 之 间 也 是 平等 的 ， 因 为 所 有 的 进程 都 是 一 视 同仁 的 待 
遇 ， 调 度 起 来 都 不 是 很 准确 一 一 但 关键 不 在 于 此 。 问 题 在 于 由 于 耽误 了 抢占 ， 所 以 对 于 类 似 于 填充 
音频 缓冲 区 这 样 有 严格 时 间 要 求 的 任务 来 说 ， 结 果 是 无 法 接受 的 。 如 果 将 节拍 率 提 高 到 1000HZ， 在 
最 坏 情 况 下 ， 也 能 将 调度 延误 时 间 降 低 到 lms， 而 在 平均 情况 下 ， 只 能 降 到 0.5ms 左右 。 





11.2.3 高 HZ 的 劣势 


现在 该 谈 谈 另 一 面 了 ， 提 高 节拍 率 会 产生 副作用 。 事 实 上 ， 把 节拍 率 提高 到 1000HZ〈 甚 至 
更 高 ) 会 带 来 一 个 大 问题 : 节拍 率 越 高 ， 意 味 着 时 钟 中 断 频 率 越 高 ， 也 就 意味 着 系统 负担 越 重 。 
因为 处 理 器 必须 花 时 间 来 执行 时 钟 中 断 处 理 程序 ， 所 以 节拍 率 越 高 , 中断 处 理 程序 占用 的 处 理 器 
的 时 间 越 多 。 这 样 不 但 减少 了 处 理 器 处 理 其 他 工作 的 时 间 ， 而 且 还 会 更 频繁 地 打 乱 处 理 器 高 速 缓 
存 并 增加 耗 电 。 负 载 造 成 的 影响 值得 进一步 探讨 。 将 时 钟 频率 从 100HZ 提高 到 1000HZ 必然 会 
使 时 钟 中 断 的 负载 增加 10 倍 。 可 是 增加 前 的 系统 负载 又 是 多 少 呢 ? 最 后 的 结论 是 : 至 少 在 现代 
计算 机 系统 上 ， 时 钟 频率 为 1000HZ 不 会 导致 难以 接受 的 负担 ， 并 且 不 会 对 系统 性 能 造成 较 大 的 
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影响 。 尽 管 如 此 ， 在 2.6 版 内 核 中 还 是 允许 在 编译 内 核 时 选 定 不 同 的 HZ 值 9。 


和 无 节拍 的 0S? 

“也 许 你 疑惑 操作 系统 是 否 一 定 要 有 固定 时 钟 。 尽 管 40 年 来 ， 几 乎 所 有 的 通用 操作 系统 
， 都 使 用 与 本 章 所 描述 的 系统 类 似 的 时 钟 中 断 ， 但 Linux 内 核 支持 “无 节拍 操作 ”这 样 的 选项 。 
” 当 编 译 内 核 时 设置 了 CONFIG_HZ 配置 选项 ， 系 统 就 根据 这 个 选项 动态 调度 时 钟 中 断 。 并 不 
”是 每 隔 固定 的 时 间 间隔 〈 比 如 lms) 触发 时 钟 中 断 ， 而 是 按 需 动态 调度 和 重新 设置 。 如 果 下 
一 个 时 钟 频率 设置 为 3ms， 就 每 3ms 触发 一 次 时 钟 中 断 。 之 后 ， 如 果 50ms 内 都 无 事 可 做 ， 内 
， 核 以 50ms 重新 调度 时 钟 中 断 。 

， ”减少 开销 总 是 受 欢 迎 的 ， 但 是 实质 性 受益 还 是 省 电 ， 特 别 是 在 系统 空闲 时 。 在 基于 节拍 
”的 标准 系统 中 ， 即 使 在 系统 空闲 期 间 ， 内 核 也 需要 为 时 钟 中 断 提供 服务 。 对 于 无 节拍 的 系统 
， 而 言 ， 空 闲 档期 不 会 被 不 必要 的 时 钟 中 断 所 打 断 ， 于 是 减少 了 系统 的 能 耗 。 且 不 论 空 闲 期 是 
200ms 还 是 200 秒 ， 随 着 时 间 的 推移 ， 所 省 的 电 是 实 实在 在 的 。 


11.3 jiffies 


全 局 变量 jiffies 用 来 记录 自 系统 启动 以 来 产生 的 节拍 的 总 数 。 启 动 时 ， 内 核 将 该 变量 初始 化 
为 0， 此 后 ， 每 次 时 钟 中 上 断 处 理 程序 就 会 增加 该 变量 的 值 。 因 为 一 秒 内 时 钟 中 断 的 次 数 等 于 HZ， 
所 以 jiffies 一 秒 内 增加 的 值 也 就 为 HZ。 系统 运行 时 间 以 秒 为 单位 计算 ， 就 等 于 jifies/HZ。 实 际 
出 现 的 情况 可 能 稍微 复杂 些 : 内 核 给 jiffies 赋 一 个 特殊 的 初 值 ， 引 起 这 个 变量 不 断 地 溢出 ， 由 此 
捕捉 bug。 当 找到 实际 的 jiffies 值 后 ， 就 首先 把 这 个 “偏差 ” 减 去 。 

站 Jiffy 的 语源 

”术语 jifly 起 源 是 未 知 的 。 据 说 这 个 短语 起 源 于 18 世纪 的 英国 。 最 初 ，jifty 所 指 含义 不 明 

。 确 ， 但 简单 地 表示 时 间 周 期 。 

4 在 科学 应 用 中 ，jiffy 表示 各 种 时 间 间隔 ， 通 常 指 10ms。 在 物理 中 ,jiffy 有 时 表示 光 传播 
某 一 特定 距离 (大抵 1 英尺 ， 或 者 1 厘米 ， 或 者 跨越 1 个 核子 ) 所 花 的 时 间 。 

在 计算 机 工程 中 ，jiffy 常常 是 两 次 连续 的 时 钟 周期 之 间 的 时 间 。 在 电机 工程 中 ，jifiy 是 
“完成 一 次 AC (交流 电 ) 周期 的 时 间 。 在 美国 ， 这 是 1/60 秒 。 

”在 操作 系统 中 ， 尤 其 是 Unix 中 ，jifty 是 两 次 连续 的 时 钟 节 拍 之 间 的 时 间 。 历 史上 ， 这 是 

，10ms。 但 是 ， 我 们 在 本 章 已 经 看 到 ，jiffy 在 Linux 中 已 经 有 所 变化 。 


jiffies 定义 于 文件 <linux/jiffies.h> 中 : 
extern unsigned long volatile jiffies; 


在 13.4 节 我 们 会 看 到 它 的 实际 定义 ， 它 看 起 来 有 点 特殊 。 现 在 我 们 先 来 看 一 些 用 到 jiffies 
的 内 核 代码 。 下 面 表达 式 将 以 秒 为 单位 的 时 间 转 化 为 jiffies : 












日 不 过 ， 因 为 体系 结构 和 NTP 相关 问题 ，HZ 的 值 并 不 是 随便 确定 的 ， 在 x86 上 ，100、500 和 1000 都 是 有 
效 的 值 。 
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{seconds * HZ) 


相反 ， 下 面 表达 式 将 jiffies 转换 为 以 秒 为 单位 的 时 间 : 


(jiffies/HZ) 

比较 而 言 ， 内 核 中 将 秒 转换 为 jifhes 用 得 多 一 些 ， 比 如 代码 经 常 需要 设置 一 些 将 来 的 时 间 : 
unsigned long time stamp = jiftfies; /* 现 在 */ 

unsigned long next tick = jiffies+l; A/* 从 现在 开始 1 个 节拍 */ 

unsigned long later = jiffies+5*HZ; /* 从 现在 开始 5 秒 */ 

unsigned long fraction = jiffies + HZ / 10; A/* 从 现在 开始 1/10 秒 */ 


把 时 钟 转化 为 秒 经 常会 用 在 内 核 和 用 户 空间 进行 交互 的 时 候 ， 而 内 核 本 身 很 少 用 到 绝对 时 间 。 
注意 ，jiffies 类 型 为 无 符号 长 整 型 (unsigned long)， 用 其 他 任何 类 型 存放 它 都 不 正确 。 


11.3.1 jiffies 的 内 部 表示 
jiffies 变量 总 是 无 符号 长 整数 unsigned long)， 因 此 ， 在 32 位 体系 结构 上 是 32 位 ， 在 4 位 体 
系 结构 上 是 4 位 。32 位 的 jiffies 变量 ， 在 时 钟 频率 为 100HZ 的 情况 下 ，497 天 后 会 溢出 。 如 果 频 率 
为 1000HZ，49.7 天 后 就 会 溢出 。 而 如 果 使 用 4 位 的 jiffies 变量 ， 任 何人 都 别 指望 会 看 到 它 溢出 。 
由 于 性 能 与 历史 的 原因 ， 主 要 还 考虑 到 与 现 有 内 核 代码 的 兼容 性 ， 内 核 开发 者 希望 jiffiie 依 
然 为 unsigned long。 有 一 些 巧 妙 的 思想 和 少数 神奇 的 链接 程序 扭转 了 这 一 局 面 。 
前 面 已 经 看 到 ，jiffies 定义 为 unsigned long : 
extern unsigned long volatile jiffies; 
第 二 个 变量 也 定义 在 <linux/jifhes.h> 中 : 
extern u64 jiffies 64; 
14(1) 脚本 用 于 连接 主 内 核 映像 (在 x86 上 位 于 arch/x86/kernel/vmlinux.lds.S)， 然 后 用 
jiffies_64 变量 的 初 值 禾 盖 jiffies 变量 : 
jiffies = jiffies 64; 
因此 , jiffies 取 整 个 64 位 jiffies_64 变量 的 低 32 位 。 代 码 可 以 完全 像 以 前 一 样 继续 访问 jiffies。 
因为 大 多 数 代码 只 不 过 使 用 jiffies 存放 流失 的 时 间 ， 因 此 ， 也 就 只 关心 低 32 位 。 不 过 ， 时 间 管 理 
代码 使 用 整个 64 位 ， 以 此 来 避免 整个 64 位 的 溢出 。 图 11-1 呈现 了 jiffies 和 jiffies_64 的 划分 。 


jiffies_64〔( 在 64 位 机 器 上 的 jiffies 变 量 ) 

































































在 32 位 机 器 上 的 jities 变 量 
11-1 jiffies 和 jiffies_64 的 划分 
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访问 jiffies 的 代码 仅 会 读 取 jiffies_64 的 低 32 位 。 通 过 get jiffies_640 函数 ， 就 可 以 读 取 整 
个 64 位 数值 S。 但 是 这 种 需求 很 少 ， 多 数 代码 仍然 只 要 能 通过 jiffies 变量 读 取 低 32 位 就 够 了 。 

在 64 位 体系 结构 上 ，jiffies_ 64 和 jiffies 指 的 是 同一 个 变量 ， 代 码 既 可 以 直接 读 取 jiffies 也 
可 以 调用 get_jiffies_640 函数 ， 它 们 的 作用 相同 。 


11.3.2 jiffies 的 回 绕 


和 任何 C 整 型 一 样 ， 当 jiffies 变量 的 值 超过 它 的 最 大 存放 范围 后 就 会 发 生 溢出 。 对 于 32 位 
无 符号 长 整 型 ， 最 大 取 值 为 22 -1。 所 以 在 溢出 前 ， 定 时 器 节拍 计数 最 大 为 4294967295。 如 果 节 
拍 计数 达 到 了 最 大 值 后 还 要 继续 增加 的 话 ， 它 的 值 会 回 绕 (wrap around) 到 0。 

请 看 下 面 一 个 回 绕 的 例子 : 


unsigned long timeout = jiffies + HZ/2; /* 0.5 秒 后 超时 */ 
/* 执行 一 些 任务 ... */ 


/* 然后 查看 是 否 花 的 时 间 过 长 */ 
if (timeout>jiffies) { 

/* 没有 超时 ,很 好 ... */ 
}else { 

/* 超时 了 ， 发 生 错误 . . -*/ 


上 面 这 一 小 段 代码 是 希望 设置 一 个 准确 的 超时 时 间 一 一 本 例 中 从 现在 开始 计时 ， 时 间 为 半 
秒 。 然 后 再 去 处 理 一 些 工作 ， 比 如 探测 硬件 然后 等 待 它 的 响应 。 如 果 处 理 这 些 工作 的 时 间 超 过 了 
设 定 的 超时 时 间 ， 代 码 就 要 做 相应 的 出 错 处 理 。 

这 里 有 很 多 种 发 生 溢出 的 可 能 ， 我 们 只 分 析 其 中 之 一 : 考虑 如 果 在 设置 完 timeout 变量 后 ， 
jiffies 重新 回 绕 为 0 将 会 发 生 什么 ?此 时 ， 第 一 个 判断 会 返回 假 ， 因 为 尽管 实际 上 用 去 的 时 间 可 
能 比 timeout 值 要 大 ， 但 是 由 于 溢出 后 回 绕 为 0， 所 以 jiffies 这 时 肯定 会 小 于 timeout 的 值 。jiffies 
本 该 是 个 非常 大 的 数值 一 一 大 于 timeout， 但 是 因为 超过 了 它 的 最 大 值 ， 所 以 反而 变 成 了 一 个 很 
小 的 值 一 一 也 许 仅仅 只 有 儿 个 节拍 计数 。 由 于 发 生 了 回 绕 ， 所 以 让 判断 语句 的 结果 刚好 相反 。 

幸好 ， 内 核 提 供 了 四 个 宏 来 帮助 比较 节拍 计数 ， 它 们 能 正确 地 处 理 节拍 计数 回 绕 情 况 。 这 
些 宏 定义 在 文件 <linuxwjiffies.h> 中 ,这 里 列 出 的 宏 是 简化 版 ; 


#define time after (unknown,Kknown) {{(long) (known) - {long) (unknown)<0) 
#define time before (unknown,Kknown) {{long) (unknown) - {long) (known)<0) 
#define time after eq(unknown,known) ((long) (unknown) - {long) (known) >=0) 
#define time before eq (unknown,known) ((long) (known) - (long) (unknown) >=0) 


其 中 unkown 参数 通常 是 jiffies，known 参数 是 需要 对 比 的 值 。 

宏 time_ after(unknown,known)， 当 时 间 unknown 超过 指定 的 known 时， 返回 真 ， 否 则 返回 
假 ; 宏 time_before(unknown,known)， 当 时 间 unknow 没 超过 指定 的 know 时 ， 和 返回 真 ， 否 则 返回 
假 。 后 面 两 个 宏 作用 和 前 面 两 个 宏一 样 ， 只 有 当 两 个 参数 相等 时 ， 它 们 才 返 回 真 。 


日 因为 32 位 体系 结构 不 能 原子 地 一 次 访问 64 位 变量 中 的 两 个 32 位 数值 。 在 读 取 jiffies 时 ， 特 殊 的 函数 利用 
xtime_lock 锁 对 jiffies 变量 进行 锁定 。 
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所 以 前 面 的 例子 可 以 改造 成 时 钟 一 回 绕 一 安全 (timer-wraparound-safe) 的 版 本 ， 形 式 
如 下 : 
unsigned long timeout = jiffies + HZ/2 ; /* 0.5 秒 后 超时 */ 
/*...*/ 
if (time before(jiffies,timeout)){ 
/* 没有 超时 ,很 好 ...*/ 
}else { 
/* 超时 了 ， 发 生 错 误 ...*/ 
} 


如 果 你 对 这 些 宏 能 避免 因为 回 绕 而 产生 的 错误 感到 好 奇 的 话 ， 你 可 以 试 一 试 对 这 两 个 参数 取 
不 同 的 值 。 然 后 ， 设 定 一 个 参数 回 绕 到 0 值 ， 看 看 会 发 生 什么 。 


11.3.3 用 户 空 间 和 HZ 


在 2.6 版 以 前 的 内 核 中 ， 如 果 改 变 内 核 中 HZ 的 值 ， 会 给 用 户 空间 中 某 些 程序 造成 异常 结 
果 。 这 是 因为 内 核 是 以 节拍 数 / 秒 的 形式 给 用 户 空间 导出 这 个 值 的 ， 在 这 个 接口 稳定 了 很 长 一 段 
时 间 后 ， 应 用 程序 便 逐 渐 依赖 于 这 个 特定 的 HZ 值 了 。 所 以 如 果 在 内 核 中 更 改 了 HZ 的 定义 值 ， 
就 打破 了 用 户 空间 的 常量 关系 一 一 用 户 空间 并 不 知道 新 的 HZ 值 。 所 以 用 户 空间 可 能 认为 系统 运 
行 时 间 已 经 是 20 个 小 时 了 ， 但 实际 上 系统 仅仅 启动 了 两 个 小 时 。 

要 想 避 免 上 面 的 错误 ， 内 核 必 须 更 改 所 有 导出 的 jiffies 值 。 因 而 内 核定 义 了 USER_HZ 来 代 
表 用 户 空间 看 到 的 HZ 值 。 在 x86 体系 结构 上 ， 由 于 HZ 值 原来 一 直 是 100, 所 以 USER_HZ 值 就 
定义 为 100。 内 核 可 以 使 用 函数 jifhes_to_clock_t() (定义 于 kemeltime.c 中 ) 将 一 个 由 HZ 表示 
的 节拍 计数 转换 成 一 个 由 USER_HZ 表示 的 节拍 计数 。 所 采用 的 表达 式 取决 于 USER_HZ 和 HZ 
是 否 互 为 整数 倍 ， 而 且 USER_HZ 是 否 小 于 等 于 HZ。 如 果 这 两 个 条 件 都 满足 ， 对 大 多 数 系统 来 
说 通常 也 能 够 满足 ， 则 表达 式 相当 简单 : 


return x / (HZ / USER H2); 


如 果 不 是 整数 倍 关系 ， 那 么 该 宏 就 得 用 到 更 为 复杂 的 算法 了 。 

最 后 还 要 说 明 ， 内 核 使 用 函数 jiffies_64_to_clock tO 将 64 位 的 jiffies 值 的 单位 从 HZ 转换 为 
USER_HZ。 

在 需要 把 以 节拍 数 / 秒 为 单位 的 值 导 出 到 用 户 空间 时 ， 需 要 使 用 上 面 这 几 个 函数 。 比 如 : 


unsigned long start ; 
unsigned long total time; 


start = jiffies; 

/* 执行 一 些 任务 . - .*/ 

total time = jiffies - start; 

printk("That took %lu ticks\n",jiffies to clock t(total time)); 

用 户 空间 期 望 HZ=USER_HZ, 但 是 如 果 它 们 不 相等 ， 则 由 宏 完 成 转换 ， 这 样 的 结果 自然 是 
皆大欢喜 。 说 实话 ， 上 面 的 例子 看 起 来 是 挺 简单 的 ， 如 果 以 秒 为 单位 而 不 是 以 节拍 为 单位 ， 输 出 
信息 会 执行 得 好 一 些 。 比 如 像 下 面 这 样 : 
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printk("That took %lu seconds \n',total time/H2); 


11.4” 硬 时 钟 和 定时 器 


体系 结构 提供 了 两 种 设备 进行 计时 一 一 一 种 是 我 们 前 面 讨论 过 的 系统 定时 器 ; 另 一 种 是 实时 
时 钟 。 虽 然 在 不 同 机 器 上 这 两 种 时 钟 的 实现 并 不 相同 ， 但 是 它们 有 着 相同 的 作用 和 设计 思路 。 


11.4.1 实时 时 钟 


实时 时 钟 (RTC)〉 是 用 来 持久 存放 系统 时 间 的 设备 ， 即 便 系统 关闭 后 ， 它 也 可 以 靠 主 板 上 
的 微型 电池 提供 的 电力 保持 系统 的 计时 。 在 PC 体系 结构 中 ，RTC 和 CMOS 集成 在 一 起 ， 而 且 
RTC 的 运行 和 BIOS 的 保存 设置 都 是 通过 同一 个 电池 供电 的 。 

当 系 统 启 动 时 ， 内 核 通过 读 取 RTC 来 初始 化 墙 上 时 间 ， 该 时 间 存 放 在 xtime 变量 中 。 虽 然 
内 核 通常 不 会 在 系统 启动 后 再 读 取 xtime 变量 ， 但 是 有 些 体系 结构 〈 比 如 x86) 会 周期 性 地 将 当 
前 时 间 值 存 回 RTC 中 。 尽 管 如 此 ， 实 时 时 钟 最 主要 的 作用 仍 是 在 启动 时 初始 化 xtime 变量 。 


11.4.2 ”系统 定时 器 


系统 定时 器 是 内 核定 时 机 制 中 最 为 重要 的 角色 。 尽 管 不 同体 系 结构 中 的 定时 器 实现 不 尽 
相同 ， 但 是 系统 定时 器 的 根本 思想 并 没有 区 别 一 一 提供 一 种 周期 性 触发 中 断 机 制 。 有 些 体系 结 
构 是 通过 对 电子 晶振 进行 分 频 来 实现 系统 定时 器 ， 还 有 些 体 系 结构 则 提供 了 一 个 衰减 测量 器 
(decrementer) 衰减 测量 器 设置 一 个 初始 值 ， 该 值 以 固定 频率 递减 ， 当 减 到 零 时 ， 触 发 一 个 
中 断 。 无 论 哪 种 情况 ， 其 效果 都 一 样 。 

在 x86 体系 结构 中 ， 主 要 采用 可 编程 中 断 时 钟 (PIT)。PIT 在 PC 机 器 中 普遍 存在 ， 而 且 从 
DOS 时 代 ， 就 开始 以 它 作 为 时 钟 中 断 源 了 。 内 核 在 启动 时 对 PIT 进行 编程 初始 化 ， 使 其 能 够 以 
HZ/ 秒 的 频率 产生 时 钟 中 断 (中断 0)。 虽 然 PIT 设备 很 简单 ， 功 能 也 有 限 ， 但 它 却 足 以 满足 我 
们 的 需要 。x86 体系 结构 中 的 其 他 的 时 钟 资源 还 包括 本 地 APIC 时 钟 和 时 间 惟 计数 (TSC) 等 。 


11.5 ”时 钟 中 断 处 理 程序 


现在 我 们 已 经 理解 了 HZ、jiffies 等 概念 以 及 系统 定时 器 的 功能 。 下 面 将 分 析 时 钟 中 断 处 理 
程序 是 如 何 实现 的 。 时 钟 中 断 处 理 程 序 可 以 划分 为 两 个 部 分 : 体系 结构 相关 部 分 和 体系 结构 无 
关 部 分 。 

与 体系 结构 相关 的 例 程 作为 系统 定时 器 的 中 断 处 理 程序 而 注册 到 内 核 中 ， 以 便 在 产生 
时 钟 中 断 时 ， 它 能 够 相应 地 运行 。 虽 然 处 理 程 序 的 具体 工作 依赖 于 特定 的 体系 结构 ， 但 是 绝 大 多 
数 处 理 程序 最 低 限 度 也 都 要 执行 如 下 工作 : 

“获得 xtime lock 锁 ， 以 便 对 访问 jifhes_64 和 墙 上 时 间 xtime 进行 保护 。 

“需要 时 应 答 或 重新 设置 系统 时 钟 。 

“周期 性 地 使 用 墙 上 时 间 更 新 实时 时 钟 。 

“调用 体系 结构 无 关 的 时 钟 例 程 : tick_periodic(。 

中 断 服务 程序 主要 通过 调用 与 体系 结构 无 关 的 例 程 ，tick periodicO 执行 下 面 更 多 的 工作 : 
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* 给 jiffies_64 变量 增加 1 这 个 操作 即使 是 在 32 位 体系 结构 上 也 是 安全 的 ， 因 为 前 面 已 经 
获得 了 xtime lock 锁 )。 

“更 新 资源 消耗 的 统计 值 ， 比 如 当前 进程 所 消耗 的 系统 时 间 和 用 户 时 间 。 

“执行 已 经 到 期 的 动态 定时 器 〈11.6 节 将 讨论 )。 

。 执 行 第 4 章 曾 讨论 的 sheduler tick0O 函数 。 

“更 新 墙 上 时 间 ， 该 时 间 存 放 在 xtime 变量 中 。 

* 计算 平均 负载 值 。 

因为 上 述 工作 分 别 都 由 单独 的 函数 负责 完成 ， 所 以 tick periodic0 例 程 的 代码 看 起 来 非常 简单 。 


static void tick periodic(int cpu) 
{ 
if (tick do timer cpu == cpu) { 
write seglock (gxtime lock); 


/* 记录 下 一 个 节拍 事件 */ 


tick next period = ktime add(tick next period, tick period); 


do timer (1); 
write sequnlock (gxtime lock); 


} 


update process times (user mode(lget irq regs())); 
profile_ tick(CPU_ PROFILING); 


} 


很 多 重要 的 操作 都 在 do_timer0 和 update_process_times0 函数 中 进行 。 前 者 承担 着 对 jiffies_64 
的 实际 增加 操作 : 


void do timer (unsigned long ticks) 
{ 
jiffies_64 += ticks; 
update wall time(); 
calc global load(); 


} 


函数 update_ wall_ time0， 顾 名 思 义 ， 根 据 所 流逝 的 时 间 更 新 墙 上 的 时 钟 ， 而 calc_global_ 
load0 更 新 系统 的 平均 负载 统计 值 。 当 do_timer0 最 终 返 回 时 ， 调 用 update_process_times() 更 新 
所 耗费 的 各 种 节拍 数 。 注 意 ， 通 过 user tick 区 别 是 花费 在 用 户 空间 还 是 内 核 空间 。 


void update process times (int user tick) 


struct task struct *p = current; 

int cpu = smp_ processor idl(); 

/* 注意 : 也 必须 对 这 个 时 钟 irg 的 上 下 文 说 明 一 下 原因 */ 
account process tick(p, user tick); 

run local timers(); 

rcu check callbacks (cpu, user tick); 

printk tick(); 

scheduler tick(); 

run posix cpu timers (p); 
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回想 一 下 tick_periodic()，user_tick 的 值 是 通过 查看 系统 寄存 器 来 设置 的 : 


update process times (user_mode (get_irq_regs ())) ; 
account process tick() 函数 对 进程 的 时 间 进 行 实质 性 更 新 : 


void account process tick(struct task struct *p, int user tick) 


{ 
cputime t one jiffy scaled = cputime to _ scaled{(cputime one jiffy); 
struct rq *rg = this rq(); 


if (user tick) 
account user time(p, cputime one jiffy, one jiffy scaled); 
else if ((p != rq->idle) || (irq count() != HARDIRQ OFFSET))} 
account system time(p, HARDIRQ OFFSET, cputime one jiffy, 
one jiffy scaled); 
else 
account_ idle time(cputime one jiffy); 


} 


也 许 你 已 经 发 现 了 ， 这 样 做 意味 着 内 核对 进程 进行 时 间 计 数 时 ， 是 根据 中 断 发 生 时 处 理 器 所 
处 的 模式 进行 分 类 统计 的 ， 它 把 上 一 个 节拍 全 部 算 给 了 进程 。 但 是 事实 上 进程 在 上 一 个 节拍 期 间 
可 能 多 次 进入 和 退出 内 核 模 式 ， 而 且 在 上 一 个 节拍 期 间 ， 该 进程 也 不 一 定 是 唯一 一 个 运行 进程 。 
很 不 幸 ， 这 种 粒度 的 进程 统计 方式 是 传统 的 Unix 所 具有 的 ， 现 在 还 没有 更 加 精密 的 统计 算法 的 
支持 ， 内 核 现 在 只 能 做 到 这 个 程度 。 这 也 是 内 核 应 该 采用 更 高 频率 的 另 一 个 原因 。 

接 下 来 的 run_lock_timers() 函数 标记 了 一 个 软 中 断 〈 请 参考 第 8 章 ) 去 处 理 所 有 到 期 的 定时 
器 ， 在 11.6 节 中 将 具体 讨论 定时 器 。 

最 后 ，scheduler_tick() 函数 负责 减少 当前 运行 进程 的 时 间 片 计数 值 并 且 在 需要 时 设置 need_ 
resched 标志 。 在 SMP 机 器 中 ， 该 函数 还 要 负责 平衡 每 个 处 理 器 上 的 运行 队列 ， 这 点 在 第 4 章 曾 
讨论 过 。 

tick_periodic() 函数 执行 完毕 后 返回 与 体系 结构 相关 的 中 断 处 理 程序 ， 继 续 执行 后 面 的 工作 ， 
释放 xtime lock 锁 ， 然 后 退出 。 

以 上 全 部 工作 每 MHZ 秒 都 要 发 生 一 次 ， 也 就 是 说 在 x86 机 器 上 时 钟 中 断 处 理 程序 每 秒 执行 
100 次 或 者 1000 次 。 


11.6 ”实际 时 间 
当前 实际 时 间 ( 墙 上 时 间 ) 定义 在 文件 kerneltime/timekeeping.c 中 : 
struct timespec xtime; 


timespec 数据 结构 定义 在 文件 <linux/time.h> 中 ， 形 式 如 下 : 


struct timespec{ 
_kernel time t tv sec; /* 秒 */ 
long tv nsec; /* ns */ 


}s; 
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xtime.tv_sec 以 秒 为 单位 ， 存 放 着 自 1970 年 1 月 1 日 (UTC) 以 来 经 过 的 时 间 ，1970 年 1 
月 1 日 被 称 为 纪元 ， 多 数 Unix 系统 的 墙 上 时 间 都 是 基于 该 纪元 而 言 的 。xtime.v_nsec 记录 自 上 一 
秒 开 始 经 过 的 ns 数 。 

读 写 xtime 变量 需要 使 用 xtime_lock 锁 ， 该 锁 不 是 普通 自 旋 锁 而 是 一 个 seqlock 锁 ， 在 第 10 
章 中 曾 讨 论 过 seqlock 锁 。 

更 新 xtime 首先 要 申请 一 个 seqlock 锁 : 


write seqlock (gxtime lock); 
/* 更 新 xtime... */ 


write sequnlock (&xtime lock); 


读 取 xtime 时 也 要 使 用 read_seqbegin( 和 read_seqretry0 函数 : 


unsigned long seq; 


do { 
unsigned long lost; 
seq = read seqbegin(&xtime lock); 


usec = timer->get offset(); 
lost = jiffies - wall jiffies; 
if (lost) 
usec += lost * (1000000 / H2); 
sec = xtime.tv_sec; 
usec += (xtime.tv nsec / 1000); 
} while (read seqgretry(&xtime lock, seq)); 


该 循环 不 断 重复 ， 直 到 读者 确认 读 取 数据 时 没有 写 操作 介入 。 如 果 发 现 循环 期 间 有 时钟 中 断 
处 理 程序 更 新 xtime， 那 么 read_seqretry() 函数 就 返回 无 效 序列 号 ， 继 续 循 环 等 待 。 

从 用 户 空间 取得 墙 上 时 间 的 主要 接口 是 gettimeofday0， 在 内 核 中 对 应 系统 调用 为 sys_ 
gettimeofday()， 定 义 于 kernel/time.c : 


asmlinkage long sys_ gettimeofday(struct timeval *tv, struct timezone *tz) 
{ 
if (likely(tv)) { 
struct timeval ktv; 
do_gettimeofday (&ktv); 
if {copy to user(tv, &ktv, sizeof(ktv))) 
return -EFAULT; 
} 
if (unlikely(tz)) { 
if (copy to user(tz, &sys tz, sizeof{(sys tz))) 
return -EFAULT; 
} 


return 0; 
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如 果 用 户 提供 的 tv 参数 非 空 ， 那 么 与 体系 结构 相关 的 do_gettimeofday0 函数 将 被 调用 。 该 
函数 执行 的 就 是 上 面 提 到 的 循环 读 取 xtime 的 操作 。 如 果 世 参数 为 空 ， 该 函数 将 把 系统 时 区 
(存放 在 sys 纪 中 ) 返回 用 户 。 如 果 在 给 用 户 空间 拷贝 墙 上 时 间或 时 区 时 发 生 错误 ， 该 函数 返 
回 -EFAULT ; 如 果 成 功 ， 则 返回 0。 

虽然 内 核 也 实现 了 time0 9 系统 调用 ， 但 是 gettimeofday0 几乎 完全 取代 了 它 。 另 外 C 库 函 
数 也 提供 了 一 些 墙 上 时 间 相 关 的 库 调 用 ， 比 如 ftime0 和 ctime()。 

另外 ， 系 统 调 用 settimeofday( 来 设置 当前 时 间 ， 它 需要 具有 CAP_SYS_TIME 权能 。 

除了 更 新 xtime 时 间 以 外 ， 内 核 不 会 像 用 户 空间 程序 那样 频繁 使 用 xtime。 但 也 有 需要 注意 
的 特殊 情况 ， 那 就 是 在 文件 系统 的 实现 代码 中 存放 访问 时 间 惟 〈 创 建 、 存 取 、 修 改 等 ) 时 需要 使 


用 xtime。 


11.7 ”定时 器 


定时 器 (有 了 时 也 称 为 动态 定时 器 或 内 核定 时 器 〉 是 管理 内 核 流逝 的 时 间 的 基础 。 内 核 经 常 需 
要 推 后 执行 某 些 代码 ， 比 如 以 前 章节 提 到 的 下 半 部 机 制 就 是 为 了 将 工作 放 到 以 后 执行 。 但 不 幸 的 
是 ， 之 后 这 个 概念 很 含糊 ， 下 半 部 的 本 意 并 非 是 放 到 以 后 的 某 个 时 间 去 执行 任务 ， 而 仅仅 是 不 在 
当前 时 间 执 行 就 可 以 了 。 我 们 所 需要 的 是 一 种 工具 ， 能 够 使 工作 在 指定 时 间 点 上 执行 一 一 不 长 不 
短 ， 正 好 在 希望 的 时 间 点 上 。 内 核定 时 器 正 是 解决 这 个 问题 的 理想 工具 。 

定时 器 的 使 用 很 简单 。 你 只 需要 执行 一 些 初始 化 工作 ， 设 置 一 个 超时 时 间 ， 指 定 超时 发 生 后 
执行 的 函数 ， 然 后 激活 定时 器 就 可 以 了 。 指 定 的 函数 将 在 定时 器 到 期 时 自动 执行 。 广 意 定时 器 并 
不 周期 运行 ， 它 在 超时 后 就 自行 撤销 , 这 也 正 是 这 种 定时 器 被 称 为 动态 定时 器 @ 的 一 个 原因 ; 动 
态 定 时 器 不 断 地 创建 和 撤销 ， 而 且 它 的 运行 次 数 也 不 受 限制 。 定 时 器 在 内 核 中 应 用 得 非常 普 ; 


11.7.1 使 用 定时 器 
定时 器 由 结构 timer_list 表示 ， 定 义 在 文件 <linux/timer.h> 中 。 


struct timer list { 





struct list head entry; /* 定时 器 链表 的 入 口 */ 
unsigned long expires; /* 以 jiffies 为 单位 的 定时 值 */ 
void (*function) (unsigned long); /* 定时 器 处 理 函 数 */ 

unsigned long data; /* 传 给 处 理 函 数 的 长 整 型 参数 */ 
struct tvec t base s *base; /* 定时 器 内 部 值 ， 用 户 不 要 使 用 */ 


}; 

幸运 的 是 ， 使 用 定时 器 并 不 需要 深入 了 解 该 数据 结构 。 事 实 上 ， 过 深 地 陷入 该 结构 ， 反 而 
会 使 你 的 代码 不 能 保证 对 可 能 发 生 的 变化 提供 支持 。 内 核 提 供 了 一 组 与 定时 器 相关 的 接口 用 来 简 
化 管理 定时 器 的 操作 。 所 有 这 些 接口 都 声明 在 文件 <linux/timer.h> 中 ， 大 多 数 接口 在 文件 kernel/ 
timer.c 中 获得 实现 。 


”但 在 某 些 体系 结构 中 ， 并 没有 实现 sys_time0， 而 是 用 C 库 中 的 gettimeofday0 函数 模拟 它 。 
四 另 一 个 原因 是 (2.3 版 本 前 ) 内核 也 存在 静态 定时 器 。 这 种 定时 器 在 编译 时 创建 ， 而 不 是 实时 创建 。 由 于 静态 
定时 器 存在 缺陷 ， 已 经 被 济 法 了 。 
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创建 定时 器 时 需要 先 定义 它 : 


struct timer list my timer; 


接着 需要 通过 一 个 辅助 函数 来 初始 化 定时 器 数据 结构 的 内 部 值 ， 初 始 化 必须 在 使 用 其 他 定时 
器 管理 函数 对 定时 器 进行 操作 前 完 


init 七 Imer (&my timer); 


现在 你 可 以 填充 结构 中 需要 的 值 了 : 


my_timer.expires = jiffies + delay; /* 定时 器 超时 时 的 节拍 数 */ 
my_timer.data = 0; /* 给 定时 器 处 理 函 数 传 人 0 值 */ 
my_timer.function = my_ function; /* 定时 器 超时 时 调用 的 函数 */ 


my_timer.expires 表示 超时 时 间 ， 它 是 以 节拍 为 单位 的 绝对 计数 值 。 如 果 当 前 jiffies 计数 等 
于 或 大 于 my_timerexpires， 那 么 my _timer function 指向 的 处 理 函 数 就 会 开始 执行 ， 另 外 该 函数 
还 要 使 用 长 整 型 参数 my_timerdata。 所 以 正如 我 们 从 timer list 结构 看 到 的 形式 ， 处 理 函 数 必须 
符合 下 面 的 函数 原型 : 


void my timer function(unsigned long data); 


data 参数 使 你 可 以 利用 同一 个 处 理 函 数 注册 多 个 定时 器 ， 只 需 通过 该 参数 就 能 区 别 对 待 它 
们 。 如 果 你 不 需要 这 个 参数 ， 就 可 以 简单 地 传递 0 〈 或 任何 其 他 值 ) 给 处 理 函 数 。 
最 后 ， 你 必须 激活 定时 器 : 


add timer(gmy 七 Imez) ; 


大 功 告 成 ， 定 时 器 可 以 工作 了 ! 但 请 注意 定时 值 的 重要 性 。 当 前 节拍 计数 等 于 或 大 于 指定 的 
超时 时 ， 内 核 就 开始 执行 定时 器 处 理 函 数 。 虽 然 内 核 可 以 保证 不 会 在 超时 时 间 到 期 前 运行 定时 器 
处 理 函数 ， 但 是 有 可 能 延误 定时 器 的 执行 。 一 般 来 说 ， 定 时 器 都 在 超时 后 马上 就 会 执行 ， 但 是 也 
有 可 能 推迟 到 下 一 次 时 钟 节拍 时 才能 运行 ， 所 以 不 能 用 定时 器 来 实现 任何 硬 实时 任务 。 | 

有 时 可 能 需要 更 改 已 经 激活 的 定时 器 超时 时 间 ， 所 以 内 核 通过 函数 mod timer0 来 实现 该 功 
能 ， 该 函数 可 以 改变 指定 的 定时 器 超时 时 间 : 


mod timer (&my timer,jiffies+new delay); /* 新 的 定时 值 */ 


mod timer() 函数 也 可 操作 那些 已 经 初始 化 ， 但 还 没有 被 激活 的 定时 器 ， 如 果 定 时 器 未 被 激 
活 ，mod_timer( 会 激活 它 。 如 果 调 用 时 定时 器 未 被 激活 ， 该 函数 返回 0 ; 否则 返回 1。 但 不 论 哪 
种 情况 ， 一 旦 从 mod_timer() 函数 返回 ， 定 时 器 都 将 被 激活 而 且 设置 了 新 的 定时 值 。 

如 果 需 要 在 定时 器 超时 前 停止 定时 器 ， 可 以 使 用 del_timer0 函数 : 


del timer (&my timer); 


被 激活 或 未 被 激活 的 定时 器 都 可 以 使 用 该 函数 ， 如 果 定 时 器 还 未 被 激活 ， 该 函数 返回 0 ; 否 
则 返回 1。 注 意 ， 不 需要 为 已 经 超时 的 定时 器 调用 该 函数 ， 因 为 它们 会 自动 删除 。 . 

当 删 除 定时 器 时 ， 必 须 注意 一 个 潜在 的 竞争 条 件 。 当 del_timer() 返回 后 ， 可 以 保证 的 只 是 : 
定时 器 不 会 再 被 激活 (也 就 是 ， 将 来 不 会 执行 )， 但 是 在 多 处 理 器 机 器 上 定时 器 中 断 可 能 已 经 在 
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其 他 处 理 器 上 运行 了 ， 所 以 删除 定时 器 时 需要 等 待 可 能 在 其 他 处 理 器 上 运行 的 定时 器 处 理 程序 都 
退出 ， 这 时 就 要 使 用 del_timer sync() 函数 执行 删除 工作 : 


del timer sync(g&my timer); 


和 del_timer( 函数 不 同 ，del_timer_sync0 函数 不 能 在 中 断 上 下 文中 使 用 。 


11.7.2 ”定时 器 竞争 条 件 


因为 定时 器 与 当前 执行 代码 是 异步 的 ， 因 此 就 有 可 能 存在 潜在 的 竞争 条 件 。 所 以 ， 首 先 ， 绝 
不 能 用 如 下 所 示 的 代码 替代 mod_timer0 函数 ， 来 改变 定时 器 的 超时 时 间 。 这 样 的 代码 在 多 处 理 
器 机 器 上 是 不 安全 的 : 


Gel timer (my timer) 

my_timer->expires = jiffies + new delay; 

add timer(my timer); 

其 次 ， 一 般 情况 下 应 该 使 用 deL_timer syncO 函数 取代 del_timer0 函数 ， 因 为 无 法 确定 在 删 
除 定时 器 时 ， 它 是 否 正 在 其 他 处 理 器 上 运行 。 为 了 防止 这 种 情况 的 发 生 ， 应 该 调用 del_timer_ 
sync() 国 数 ， 而 不 是 del_timer0 函数 。 否 则 ， 对 定时 器 执行 删除 操作 后 ， 代 码 会 继续 执行 ， 但 它 
有 可 能 会 去 操作 在 其 他 处 理 器 上 运行 的 定时 器 正在 使 用 的 资源 ， 因 而 造成 并 发 访问 ， 所 以 请 优先 
使 用 删除 定时 器 的 同步 方法 。 

最 后 ， 因 为 内 核 异步 执行 中 断 处 理 程序 ， 所 以 应 该 重点 保护 定时 器 中 断 处 理 程 序 中 的 共享 数 
据 。 定 时 器 数据 的 保护 问题 曾 在 第 8 章 和 第 9 章 讨论 过 。 


11.7.3 ”实现 定时 器 


内 核 在 时 钟 中 断 发 生 后 执行 定时 器 ， 定 时 器 作为 软 中 断 在 下 半 部 上 下 文中 执行 。 具 体 
来 说 ， 时 钟 中 断 处 理 程 序 会 执行 update_process_times( 函数 ， 该 函数 随即 调用 run_local_ 
timers() 国 数 : 


void run_local timers (void) 


hrtimer run queues () ; 
raise_softirq(TIMER_SOFTIRQ) ; /* 执行 定时 器 软 中 断 */ 

softlockup tick!(); 

run_timer_softirq0 函数 处 理 软 中 断 TIMER_SOFTIRQ， 从 而 在 当前 处 理 器 上 运行 所 有 的 
(如 果 有 的 话 ) 超时 定时 器 。 

虽然 所 有 定时 器 都 以 链表 形式 存放 在 一 起 ， 但 是 让 内 核 经 常 为 了 寻找 超时 定时 器 而 遍历 整个 
链表 是 不 明智 的 。 同样 ， 将 链表 以 超时 时 间 进 行 排序 也 是 很 不 明智 的 做 法 ， 因 为 这 样 一 来 在 链表 
中 播 入 和 删除 定时 器 都 会 很 费时 。 为 了 提高 搜索 效率 ， 内 核 将 定时 器 按 它们 的 超时 时 间 划 分 为 五 
组 。 当 定时 器 超时 时 间接 近 时 ， 定 时 器 将 随 组 一 起 下 移 。 采 用 分 组 定时 器 的 方法 可 以 在 执行 软 中 
断 的 多 数 情况 下 ， 确 保 内 核 尽 可 能 减少 搜索 超时 定时 器 所 带 来 的 负担 。 因 此 定时 器 管理 代码 是 非 
常 高 效 的 。 
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11.8 ”延迟 执行 


内 核 代码 (尤其 是 驱动 程序 ) 除 了 使 用 定时 器 或 下 半 部 机 制 以 外 ， 还 需要 其 他 方法 来 推迟 执行 任 
务 。 这 种 推迟 通常 发 生 在 等 待 硬件 完成 某 些 工作 时 ， 而 且 等 待 的 时 间 往 往 非 常 短 ， 比 如 ， 重 新 设置 网 
卡 的 以 太 模式 需要 花费 2ms， 所 以 在 设 定 网 卡 速度 后 ， 驱 动 程序 必须 至 少 等 待 2ms 才能 继续 运行 。 

内 核 提 供 了 许多 延迟 方法 处 理 各 种 延迟 要 求 。 不 同 的 方法 有 不 同 的 处 理 特点 ， 有 些 是 在 延迟 
任务 时 挂 起 处 理 器 ， 防 止 处 理 器 执行 任何 实际 工作 ; 另 一 些 不 会 挂 起 处 理 器 ， 所 以 也 不 能 确保 被 
延迟 的 代码 能 够 在 指定 的 延迟 时 间 9 运 行 。 


11.8.1 忙 等 待 


最 简单 的 延迟 方法 (虽然 通常 也 是 最 不 理想 的 办 法 ) 是 忙 等 待 〈 或 者 说 忙 循环 )。 但 要 注意 
该 方法 仅仅 在 想 要 延迟 的 时 间 是 节拍 的 整数 倍 ， 或 者 精确 率 要 求 不 高 时 才 可 以 使 用 。 

忙 循 环 实现 起 来 很 简单 一 一 在 循环 中 不 断 旋转 直到 希望 的 时 钟 节拍 数 耗 尽 ， 比 如 : 

unsigned long timeout = jiffies+10; /* 10 个 节拍 */ 


while (time before(jiffies, timeout)) 


循环 不 断 执行 ， 直 到 jiffies 大 于 delay 为 止 ， 总 共 的 循环 时 间 为 10 个 节拍 。 在 HZ 值 等 于 
1000 的 x86 体系 结构 上 ， 耗 时 为 10ms。 类 似 地 : 


unsigned long delay = jiffies + 2*HZ; /* 2 秒 */ 


while (time before (jiffies, delay)) 


程序 要 循环 等 待 2XHZ 个 时 钟 节拍 ， 也 就 是 说 无 论 时 钟 节拍 率 如 何 ， 都 将 等 待 2s。 

对 于 系统 的 其 他 部 分 ， 忙 循环 方法 算 不 上 一 个 好 办 法 。 因 为 当代 码 等 待 时 ， 处 理 器 只 能 在 原 地 
旋转 等 待 一 一 它 不 会 去 处 理 其 他 任何 任务 ! 事实 上 ， 你 几乎 不 会 用 到 这 种 低 效率 的 办 法 ， 这 里 介绍 
它 仅仅 因为 它 是 最 简单 最 直接 的 延迟 方法 。 当 然 你 也 可 能 在 那些 鉴 脚 的 代码 中 发 现 它 的 身影 。 

更 好 的 方法 应 该 是 在 代码 等 待 时 ， 人 允许 内 核 重 新 调度 执行 其 他 任务 : 


unsigned long delay = jiffies +5*HZ; 


while(time before(jiffies,delay)) 
cond resched() ; 


cond resched0 函数 将 调度 一 个 新 程序 投入 和 运行， 但 它 只 有 在 设置 完 need_resched 标志 后 才能 生 
效 。 换 名 话说 ， 该 方法 有 效 的 条 件 是 系统 中 存在 更 重要 的 任务 需要 运行 。 注 意 ， 因 为 该 方法 需要 调 
用 调度 程序 ， 所 以 它 不 能 在 中 断 上 下 文中 使 用 一 一 只 能 在 进程 上 下 文中 使 用 。 事 实 上 ， 所 有 延迟 方 
法 在 进程 上 下 文中 使 用 得 很 好 ， 因 为 中 断 处 理 程序 都 应 该 尽 可 能 快 地 执行 〈 忙 循环 与 这 种 目标 绝对 
是 背道而驰 )。 另 外 ， 延 迟 执行 不 管 在 哪 种 情况 下 ， 都 不 应 该 在 持 有 锁 时 或 禁止 中 断 时 发 生 。 





日 事实 上 ， 没 有 方法 能 保证 实际 的 延迟 刚好 等 于 指定 的 延迟 时 间 ， 虽 然 可 以 非常 接近 ， 但 是 最 精确 的 情况 也 只 
能 达到 接近 ， 多 数 情况 都 要 长 于 指定 时 间 。 


182 | 湛 11 二 





C 语言 的 推崇 者 可 能 会 问 : 什么 能 保证 前 面 的 循环 已 经 执行 了 。C 编译 器 通常 只 将 变量 装 
载 一 次 。 一 般 情况 下 不 能 保证 循环 中 的 jifhies 变量 在 每 次 循环 中 被 读 取 时 都 重新 被 载 和 人。 但 是 我 
们 要 求 jiffies 在 每 次 循环 时 都 必须 重新 装载 ， 因 为 在 后 台 jifhes 值 会 随时 钟 中 断 的 发 生 而 不 断 增 
加 。 为 了 解决 这 个 问题 ，<linux/jiffies.h> 中 jiffies 变量 被 标记 为 关键 字 volatile。 关 键 字 volatile 
指示 编译 器 在 每 次 访问 变量 时 都 重新 从 主 内 存 中 获得 ， 而 不 是 通过 寄存 器 中 的 变量 别名 来 访问 ， 
从 而 确保 前 面 的 循环 能 按 预 期 的 方式 执行 。 


11.8.2 ” 短 延 迟 


有 时 内 核 代码 (通常 也 是 驱动 程序 〉 不 但 需要 很 短暂 的 延迟 〈 比 时 钟 节拍 还 短 )， 而 且 还 要 
求 延迟 的 时 间 很 精确 。 这 种 情况 多 发 生 在 和 硬件 同步 时 ， 也 就 是 说 需要 短暂 等 待 茶 个 动作 的 完成 
(等 待 时 间 往 往 小 于 lms)， 所 以 不 可 能 使 用 像 前 面 例子 中 那 种 基于 jiffes 的 延迟 方法 。 对 于 频率 
为 100HZ 的 时 钟 中 断 ， 它 的 节拍 间隔 甚至 会 超过 10ms ! 即使 频率 为 1000HZ 的 时 钟 中 断 ， 节 拍 
间隔 也 只 能 到 lms， 所 以 我 们 必须 寻找 其 他 方法 满足 更 短 、 更 精确 的 延迟 要 求 。 

幸运 的 是 ， 内 核 提供 了 三 个 可 以 处 理 ms、ns 和 ms 级 别 的 延迟 函数 ， 它 们 定义 在 文件 
<linux/delay.h > 和 <asm/delay.h> 中 ， 可 以 看 到 它们 并 不 使 用 jiffies : 


void udelay (unsigned long usecs) 
void ndelay (unsigned long nsecs) 
void mdelay (unsigned long msecs) 


前 一 个 函数 利用 忙 循环 将 任务 延迟 指定 的 ms 数 后 运行 ， 后 者 延迟 指定 的 ms 数 。 众 所 周知 ， 
ls 等 于 1000ms， 等 于 1000000 ns。 这 个 函数 用 起 来 很 简单 : 

udelay (150); /* 延迟 150usx*/ 

udelay0 国 数 依靠 执行 数 次 循环 达到 延迟 效果 ， 而 mdelay0 函数 又 是 通过 udelay0 函数 实 
现 的 。 因 为 内 核 知 道 处 理 器 在 1 秒 内 能 执行 多 少 次 循环 《请 看 副 栏 中 的 BogoMIPS 内 容 )， 所 以 
udelay0 函数 仅仅 需要 根据 指定 的 延迟 时 间 在 1 秒 中 占 的 比例 ， 就 能 决定 需要 进行 多 少 次 循环 即 
可 达到 要 求 的 推迟 时 间 。 


， 我 的 BogoMIPS 比 你 的 大 


” ”BogoMIPS 值 总 是 让 人 觉得 糊涂 ， 也 让 人 觉得 有 意思 。 其 实 ， 计 算 BogoMIPS 并 不 是 为 
: 了 表现 你 的 机 器 性 能 ， 它 主要 被 udelay0 函数 和 mdelay0 函数 使 用 。 它 的 名 字 取 自 bogus (也 
就 是 伪 的 ) 和 MIPS 每 秒 处 理 百 万 条 指令 )。 大 家 都 熟悉 下 面 这 样 的 系统 启动 信息 摘自 一 
关 个 装配 主 频 为 2.4GHZ 的 7300 系列 Intel Xeon 处 理 器 的 机 器 启动 信息 ) : 

六 Detected 2400.131 MHz processor. 


Calibrating delay loop ... 4799.56 BogoMIPS 


BogoMIPS 值 记 录 处 理 器 在 给 定时 间 内 忙 循环 执行 的 次 数 。 其 实 ,BogoMIPS 记录 处 理 器 在 

| 空闲 时 速度 有 多 快 。 该 值 存放 在 变量 loops_per jiffy 中 ， 可 以 从 文件 /proc/cpuinfo 中 读 到 它 。 延 
. 述 循 环 函数 使 用 loops_per jiffy 值 来 计算 (相当 准确 ) 为 提供 精确 延迟 而 需要 进行 多 少 次 循环 。 
内 核 在 启动 时 利用 calibrate_delay0 计算 loops_per jiffy 值 ， 该 函数 在 文件 initmain.c 中 。 


i 


人 定 肝 器 布 肝 间 和 营 理 183 





udelay0 函数 应 当 只 在 小 延迟 中 调用 ， 因 为 在 快速 机 器 上 的 大 延迟 可 能 导致 溢出 。 通 常 ， 超 
过 lms 的 范围 不 要 使 用 udelay0 进行 延迟 。 对 于 较 长 的 延迟 ，mdelay0 工作 良好 。 像 其 他 忙 等 而 
延迟 执行 的 方案 ， 除 非 绝 对 必要 ， 这 两 个 函数 (尤其 是 mdelay0， 因 为 用 于 长 的 延迟 ) 都 不 应 当 
使 用 。 记 住 ， 持 锁 忙 等 或 禁止 中 断 是 一 种 粗鲁 的 做 法 ， 因 为 系统 响应 时 间 和 性 能 都 会 大 受 影响 。 
不 过 ， 如 果 你 需要 精确 的 延迟 ， 这 些 调用 是 最 好 的 办 法 。 这 些 忙 等 函数 主要 用 在 延迟 小 的 地 方 ， 
通常 在 bs 范围 内 。 


11.8.3 schedule_timeout() 


更 理想 的 延迟 执行 方法 是 使 用 schedule_timeout() 函数 ， 该 方法 会 让 需要 延迟 执行 的 任务 睡 
眠 到 指定 的 延迟 时 间 耗 尽 后 再 重新 运行 。 但 该 方法 也 不 能 保证 睡眠 时 间 正 好 等 于 弟 定 的 延迟 时 
间 ， 只 能 尽量 使 睡眠 时 间接 近 指 定 的 延迟 时 间 。 当 指定 的 时 间 到 期 后 ， 内 核 唤 醒 被 延迟 的 任务 并 
将 其 重新 放 回 运行 队列 ， 用 法 如 下 : 

/* 将 任务 设置 为 可 中 断 睡 眠 状态 */ 

set_current_state (TASK_INTERRUPTIBLE) ; 


/* 小 睡 一 会 儿 ,“s” 秒 后 唤醒 */ 


Schedule timeout (s*H2Z); 

唯一 的 参数 是 延迟 的 相对 时 间 ， 单 位 为 jifies， 上 例 中 将 相应 的 任务 推 入 可 中 断 睡眠 队 
列 ， 睡 眠 s 秒 。 因 为 任务 处 于 可 中 断 状 态 ， 所 以 如 果 任 务 收 到 信号 将 被 唤醒 。 如 果 睡 眠 任务 不 
想 接收 信号 ， 可 以 将 任务 状态 设置 为 TASK_UNINTERRUPTIBLE， 然 后 睡眠 。 注 意 ， 在 调用 
sechedule_timeout() 函数 前 必须 首先 将 任务 设置 成 上 面 两 种 状态 之 一 ， 否 则 任务 不 会 睡眠 。 

注意 ， 由 于 schedule timeoutO 函数 需要 调用 调度 程序 ， 所 以 调用 它 的 代码 必须 保证 能 够 睡 
眠 〈 请 参考 第 8 章 和 第 9 章 )。 简 而 言 之 ， 调 用 代码 必须 处 于 进程 上 下 文中 ， 并 且 不 能 持 有 锁 。 

1. schedule_timeout( 的 实现 

schedule_timeout() 函数 的 用 法 相当 简单 、 直 接 。 其 实 ， 它 是 内 核定 时 器 的 一 个 简单 应 用 。 
请 看 下 面 的 代码 : 

signed long Schedule timeout(signed long tjimeout) 

{ 


timer t timer; 
unsigned long expire; 


Switch (timeout) 
{ 
Case MAX SCHEDULE TIMEOUT: 
Schedule()， 
goto out; 
default: 
if (timeout < 0) 
{ 
printk(KERN ERR “schedule timeout: wrong timeout “ 
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Out : 


} 


“Value %1lx from %p\n”, timeout, 
_ builtin return address(0)); 
current->state = TASK RUNNING; 
goto out; 


} 

expire = timeout + jiffies; 

init timer(g&timer); 

timer.expires = expire; 

timer.data = (unsigned long) current; 
timer.function = process timeout; 
add timer(&timer); 


schedule(); 
del timer sync(&timer); 


timeout = expire - jiffies; 


return timeout < 0 ? 0 : timeout; 


该 函数 用 原始 的 名 字 timer 创建 了 一 个 定时 器 timer ; 然后 设置 它 的 超时 时 间 timeout ; 设 
置 超时 执行 函数 process_timeout() ; 接着 激活 定时 器 而 且 调 用 schedule0。 因 为 任务 被 标识 为 
TASK_ INTERRUPTIBLE 或 TASK_UNINTERRUPTIBLE， 所 以 调度 程序 不 会 再 选择 该 任务 投入 
运行 ， 而 会 选择 其 他 新 任务 运行 。 

当 定 时 器 超时 时 ，process_timeout() 函数 会 被 调用 : 


void process timeout (unsigned long data) 


{ 
} 


wake up process({task t *)data); 


该 函数 将 任务 设置 为 TASK_RUNNING 状态 ， 然 后 将 其 放 入 运行 队列 。 

当 任 务 重新 被 调度 时 ， 将 返回 代码 进入 睡眠 前 的 位 置 继续 执行 (正好 在 调用 schedule0 后 )。 
如 果 任 务 提前 被 唤醒 (比如 收 到 信号 )， 那 么 定时 器 被 撤销 , process_timeoutO 函数 返回 剩余 的 时 间 。 

在 switch0 括号 中 的 代码 是 为 处 理 特 殊 情况 而 写 的 ， 正 常情 况 不 会 用 到 它们 。MAX_ 
SCHEDULE_TIMEOUT 是 用 来 检查 任务 是 否 无 限期 地 睡 卢 ， 如 果 那 样 的 话 ， 函 数 不 会 为 它 设 置 
定时 器 〈 因 为 睡眠 时 间 没 有 期 限 )， 而 这 时 调度 程序 会 立刻 被 调用 。 如 果 你 需要 无 限期 地 让 任务 
睡眠 ， 最 好 使 用 其 他 方法 唤醒 任务 。 

2. 设置 超时 时 间 ， 在 等 待 队列 上 睡眠 

第 4 章 我 们 已 经 看 到 进程 上 下 文中 的 代码 为 了 等 待 特定 事件 发 生 ， 可 以 将 自己 放 入 等 待 队 
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列 ， 然 后 调用 调度 程序 去 执行 新 任务 。 一 旦 事件 发 生 后 ， 内 核 调用 wake_up0 函数 唤醒 在 睡眠 队 
列 上 的 任务 ， 使 其 重新 投入 运行 。 

有 时 ， 等 待 队列 上 的 某 个 任务 可 能 既 在 等 待 一 个 特定 事件 到 来 ， 又 在 等 待 一 个 特定 时 间 
到 期 就 看 谁 来 得 更 快 。 这 种 情况 下 ， 代 码 可 以 简单 地 使 用 schedule timeoutO 函数 代替 
schedule( 前 数 ， 这 样 一 来 ， 当 希望 的 指定 时 间 到 期 ， 任 务 都 会 被 唤醒 。 当 然 ， 代 码 需 要 检查 被 
唤醒 的 原因 (有 可 能 是 被 事件 唤醒 ， 也 有 可 能 是 因为 延迟 的 时 间 到 期 ， 还 可 能 是 因为 接收 到 了 信 
号 )， 然 后 执行 相应 的 操作 。 


11.9 小结 


在 本 章 中 ， 我 们 考察 了 时 间 的 概念 ， 并 知道 了 墙 上 时 钟 与 计算 机 的 正常 运行 时 间 如 何 管理 。 
我 们 对 比 了 相对 时 间 和 绝对 时 间 以 及 绝对 事件 与 周期 事件 。 我 们 还 涵盖 了 诸如 时 钟 中 断 、 时 钟 节 
拍 、HZ 以 及 jiffies 等 概念 。 

我 们 考察 了 定时 器 的 实现 ， 了 解 了 如 何 把 这 些 用 到 自己 的 内 核 代码 中 。 本 章 最 后 ， 我 们 浏览 
了 开发 者 用 于 延迟 的 其 他 方法 。 

你 写 的 大 多 数 内 核 代码 都 需要 对 时 间 及 其 走 过 的 时 间 有 一 些 理解 。 而 最 大 的 可 能 是 ， 只 要 你 
编写 驱动 程序 ， 就 需要 处 理 内 核定 时 器 。 与 其 让 时 间 悄 悄 汐 走 ， 还 不 如 阅读 本 章 。 





第 42 章 
内 存 管 理 


在 内 核 里 分 配 内 存 可 不 像 在 其 他 地 方 分 配 内 存 那么 容易 。 造 成 这 种 局 面 的 因素 很 多 。 从 根本 
上 讲 ， 是 因为 内 核 本 身 不 能 像 用 户 空间 那样 奢侈 地 使 用 内 存 。 内 核 与 用 户 空间 不 同 ， 它 不 具备 这 
种 能 力 ， 它 不 支持 简单 便捷 的 内 存 分 配方 式 。 比 如 ， 内 核 一 般 不 能 睡眠 。 此 外 ， 处 理 内 存 分 配 错 
误 对 内 核 来 说 也 绝 非 易 事 。 正 是 由 于 这 些 限 制 ， 再 加 上 内 存 分 配 机 制 不 能 太 复杂 ， 所 以 在 内 核 中 
获取 内 存 要 比 在 用 户 空间 复杂 得 多 。 不 过 ， 从 程序 开发 者 角度 来 看 ， 也 不 是 说 内 核 的 内 存 分 配 就 
困难 得 不 得 了 ， 只 是 和 用 户 空间 中 的 内 存 分 配 不 太一 样 而 已 。 

本 章 讨论 的 是 在 内 核 之 中 获取 内 存 的 方法 。 在 深入 研究 实际 的 分 配 接 口 之 前 ， 我 们 需要 理解 
内 核 是 如 何 管理 内 存 的 。 


12.1 页 


内 核 把 物理 页 作为 内 存 管理 的 基本 单位 。 尽 管 处 理 器 的 最 小 可 寻 址 单位 通常 为 字 (甚至 字 
节 ), 但 是 ， 内 存 管理 单元 MMU， 管理 内 存 并 把 虚拟 地 址 转换 为 物理 地 址 的 硬件 ) 通常 以 页 为 
单位 进行 处 理 。 正 因为 如 此 ，MMU 以 页 (page) 大 小 为 单位 来 管理 系统 中 的 页 表 〈 这 也 是 页 表 
名 的 来 由 )。 从 虚拟 内 存 的 角度 来 看 ， 页 就 是 最 小 单位 。 

在 第 19 章 中 我 们 将 会 看 到 ， 体 系 结构 不 同 ， 支 持 的 页 大 小 也 不 尽 相 同 ， 还 有 些 体 系 结构 其 
至 支持 几 种 不 同 的 页 大 小 。 大 多 数 32 位 体系 结构 支持 4KB 的 页 ， 而 64 位 体系 结构 一 般 会 支持 
8KB 的 页 。 这 就 意味 着 ， 在 支持 4KB 页 大 小 并 有 1GB 物理 内 存 的 机 器 上 ， 物 理 内 存 会 被 划分 为 
262144 个 页 。 

内 核 用 struct page 结构 表示 系统 中 的 每 个 物理 页 ， 该 结构 位 于 <linux/mm _types.h 中 一 一 我 
简化 了 定义 ， 去 除了 两 个 容易 混淆 我 们 讨论 主题 的 联合 结构 体 : 


struct page { 
unsigned long flags; 
atomic t _Ccount; 
atomic t _mapcount; 
unsigned long private; 
struct address space *mapping; 
pgoff t index; 
struct list head lru; 
void *virtual; 


}; 
让 我 们 看 一 下 其 中 比较 重要 的 域 。flag 域 用 来 存放 页 的 状态 。 这 些 状 态 包括 页 是 不 是 脏 的 ， 
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是 不 是 被 锁定 在 内 存 中 等 。flag 的 每 一 位 单独 表示 一 种 状态 ， 所 以 它 至 少 可 以 同时 表示 出 32 种 
不 同 的 状态 。 这 些 标志 定义 在 <linux/page-flags.h> 中 。 

_count 域 存放 页 的 引用 计数 一 一 也 就 是 这 一 页 被 引用 了 多 少 次 。 当 计数 值 变 为 -1 时， 就 
说 明 当前 内 核 并 没有 引用 这 一 页 ， 于 是 ， 在 新 的 分 配 中 就 可 以 使 用 它 。 内 核 代码 不 应 当 直 接 检 
查 该 域 ， 而 是 调用 page_count( 函数 进行 检查 ， 该 函数 唯一 的 参数 就 是 page 结构 。 当 页 空闲 时 ， 
尽管 该 结构 内 部 的 _count 值 是 负 的 ， 但 是 对 page_countO 函数 而 言 ， 返 回 0 表示 页 空 亲 ， 返 回 
一 个 正 整数 表示 页 在 使 用 。 一 个 页 可 以 由 页 缓存 使 用 (这 时 ，mapping 域 指向 和 这 个 页 关联 的 
addresss_space 对 象 )， 或 者 作为 私有 数据 〈 由 private 指向 )， 或 者 作为 进程 页 表 中 的 映射 。 

virtual 域 是 页 的 虚拟 地 址 。 通 常情 况 下 ， 它 就 是 页 在 虚拟 内 存 中 的 地 址 。 有 些 内 存 〈 即 所 请 
的 高 端 内 存 ) 并 不 永久 地 映射 到 内 核 地 址 空间 上 。 在 这 种 情况 下 ， 这 个 域 的 值 为 NULL， 需 要 的 
时 候 ， 必 须 动 态 地 映射 这 些 页 。 稍 后 我 们 将 讨论 高 端 内 存 。 

必须 要 理解 的 一 点 是 page 结构 与 物理 页 相关 ， 而 并 非 与 虚拟 页 相关 。 因 此 ， 该 结构 对 页 的 
描述 只 是 短暂 的 。 即 使 页 中 所 包含 的 数据 继续 存在 ， 由 于 交换 等 原因 ， 它 们 也 可 能 并 不 再 和 同 
一 个 page 结构 相关 联 。 内 核 仅 仅 用 这 个 数据 结构 来 描述 当前 时 刻 在 相关 的 物理 页 中 存放 的 东西 。 
这 种 数据 结构 的 目的 在 于 描述 物理 内 存 本 身 ， 而 不 是 描述 包含 在 其 中 的 数据 。 

内 核 用 这 一 结构 来 管理 系统 中 所 有 的 页 ， 因 为 内 核 需要 知道 一 个 页 是 否 空闲 〈 也 就 是 页 有 
没有 被 分 配 )。 如 果 页 已 经 被 分 配 ， 内 核 还 需要 知道 谁 拥有 这 个 页 。 拥 有 者 可 能 是 用 户 空间 进程 、 
动态 分 配 的 内 核 数 据 、 静 态 内 核 代 码 或 页 高 速 缓存 等 。 

系统 中 的 每 个 物理 页 都 要 分 配 一 个 这 样 的 结构 体 ， 开 发 者 常常 对 此 感到 惊讶 。 他 们 会 想 
“这 得 浪费 多 少 内 存 呀 ”! 让 我 们 来 算 算 对 所 有 这 些 页 都 这 么 做 ， 到 底 要 消耗 掉 多 少 内存 。 就 算 
struct page 占 40 字 节 的 内 存 吧 ， 假 定 系统 的 物理 页 为 8KB 大 小 ， 系 统 有 4GB 物理 内 存 。 那 么 ， 
系统 中 共有 页 面 524 288 个 , 而 描述 这 么 多 页 面 的 page 结构 体 消耗 的 内 存 只 不 过 是 20MB : 也 许 
绝对 值 不 小 ， 但 是 相对 系统 4GB 内 存 而 言 ， 仅 是 很 小 的 一 部 分 罢了 。 因 此 ， 要 管理 系统 中 这 人 么 
多 物理 页 面 ， 这 个 代价 并 不 算 太 高 。 


12.2 区 


由 于 硬件 的 限制 ， 内 核 并 不 能 对 所 有 的 页 一 视 同 仁 。 有 些 页 位 于 内 存 中 特定 的 物理 地 址 上 ， 
所 以 不 能 将 其 用 于 一 些 特定 的 任务 。 由 于 存在 这 种 限制 ， 所 以 内 核 把 页 划分 为 不 同 的 区 (zone)。 
内 核 使 用 区 对 具有 相似 特性 的 页 进行 分 组 。Linux 必须 处 理 如 下 两 种 由 于 硬件 存在 缺陷 而 引起 的 
内 存 寻 址 问题 : 

。 一些 硬件 只 能 用 某 些 特定 的 内 在 地 址 来 执行 DMA (直接 内 存 访 问 )。 

“一 些 体系 结构 的 内 存 的 物理 寻 址 范围 比 虚拟 寻 址 范围 大 得 多 。 这 样 ， 就 有 一 些 内 存 不 能 永 

久 地 映射 到 内 核 空间 上 。 

因为 存在 这 些 制 约 条 件 ，Linux 主要 使 用 了 四 种 区 : 

。ZONE_DMA 一 一 这 个 区 包含 的 页 能 用 来 执行 DMA 操作 。 

“ZONE_DMA32 一 和 ZOME_DMA 类 似 ， 该 区 包含 的 页 面 可 用 来 执行 DMA 操作 ; 而 和 

ZONE_DMA 不 同 之 处 在 于 ， 这 些 页 面 只 能 被 32 位 设备 访问 。 在 某 些 体系 结构 中 ， 该 区 将 
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比 ZONE DMA 更 大 。 

。ZONE_NORMAI 一 这个 区 包含 的 都 是 能 正常 映射 的 页 。 

。ZONE_HIGHEM 一 一 这 个 区 包含 “高 端 内 存 ”， 其 中 的 页 并 不 能 永久 地 映射 到 内 核 地 址 空间 。 

这 些 区 (还 有 两 种 不 大 重要 的 ) 在 <linux/mmzone.h> 中 定义 。 

区 的 实际 使 用 和 分 布 是 与 体系 结构 相关 的 。 例 如 ， 某 些 体系 结构 在 内 存 的 任何 地 址 上 执行 
DMA 都 没有 问题 。 在 这 些 体 系 结构 中 ，ZONE_DMA 为 空 ，ZONE_NORMAL 就 可 以 直接 用 于 分 
配 。 与 此 相反 ， 在 x86 体系 结构 上 ，ISA 设备 就 不 能 在 整个 32 位 9 的 地 址 空间 中 执行 DMA， 
为 ISA 设备 只 能 访问 物理 内 存 的 前 16MB。 因 此 ，ZONE_DMA 在 x86 上 包含 的 页 都 在 0-16MB 
的 内 存 范围 里 。 

ZONE_HIGHMEM 的 工作 方式 也 差不多 。 能 否 直 接 映 射 取决 于 体系 结构 。 在 32 位 x86 系统 
上 ，ZONE_HIGHMEM 为 高 于 896MB 的 所 有 物理 内 存 。 在 其 他 体系 结构 上 ， 由 于 所 有 内 存 都 被 
直接 映射 ， 所 以 ZONE_HIGHMEM 为 空 。ZONE_HIGHMEM 所 在 的 内 存 就 是 所 谓 的 高 端 内 存 @ 
(high memory)。 系 统 的 其 余 内 存 就 是 所 谓 的 低 端 内 存 (low memory)。 

前 两 个 区 各 取 所 需 之 后 ， 剩 余 的 就 由 ZONE_NORMAL 区 独 享 了 。 在 x86 上 ，ZONE_ 
NORMAL 是 从 16MB 到 896MB 的 所 有 物理 内 存 。 在 其 他 〈 更 幸运 ) 的 体系 结构 上 ，ZONE_ 
NORMAL 是 所 有 的 可 用 物理 内 存 。 表 12-1 是 每 个 区 及 其 在 x86-32 上 所 占 页 的 列表 。 


表 12-1 x86-32 上 的 区 





CE 
ZONEDMA Jo 
ZONB-NORMAL 0 0 
ZONE HIGHMEM 56 


Linux 把 系统 的 页 划分 为 区 ， 形 成 不 同 的 内 存 地 ， 这 样 就 可 以 根据 用 途 进行 分 配 了 。 例 如 ， 
ZONE_DMA 内 存 池 让 内 核 有 能 力 为 DMA 分 配 所 需 的 内 存 。 如 果 需 要 这 样 的 内 存 ， 那 么 ， 内 核 
就 可 以 从 ZONE_DMA 中 按照 请 求 的 数目 取出 页 。 注 意 ， 区 的 划分 没有 任何 物理 意义 ， 这 只 不 过 
是 内 核 为 了 管理 页 而 采取 的 一 种 逻辑 上 的 分 组 。 

某 些 分 配 可 能 需要 从 特定 的 区 中 获取 页 ， 而 另外 一 些 分 配 则 可 以 从 多 个 区 中 获取 页 。 比 如 ， 
尽管 用 于 DMA 的 内 存 必 须 从 ZONE_DMA 中 进行 分 配 ， 但 是 一 般 用 途 的 内 存 却 既 能 从 ZONE_ 
DMA 分 配 ， 也 能 从 ZONE_NORMAL 分 配 ， 不 过 不 可 能 同时 从 两 个 区 分 配 ， 因 为 分 配 是 不 能 跨 
区 界限 的 。 当 然 ， 内 核 更 希望 一 般 用 途 的 内 存 从 常规 区 分 配 ， 这 样 能 节省 ZONE_DMA 中 的 页 ， 
保证 满足 DMA 的 使 用 需求 。 但 是 ， 如 果 可 供 分 配 的 资源 不 够 用 了 《如果 内 存 已 经 变 得 很 少 了 )， 
那么 ， 内 核 就 会 去 占用 其 他 可 用 区 的 内 存 。 

不 是 所 有 的 体系 结构 都 定义 了 全 部 区 ， 有 些 64 位 的 体系 结构 ， 如 Intel 的 x86-64 体系 结构 


有 些 精 糕 的 PCI 设备 只 能 在 24 位 地 址 空间 内 执行 DMA 操作 。 
四 Linux 的 高 端 内 存 和 DOS 的 高 端 内 存 没 有 关系 ，DOS 的 高 端 内 存 是 围绕 DOS 和 x86 的 “ 实 模式 ”的 空间 范 
围 限制 而 言 的 。 


内 冶 营 理 189 


可 以 映射 和 处 理 64 位 的 内 存 空间 ， 所 以 x86-64 没有 ZONE_HIGHMEM 区 ， 所 有 的 物理 内 存 都 
处 于 ZONE DMA 和 ZONE NORMAL 区 。 
每 个 区 都 用 struct zone 表示 ， 在 <linux/mmzone.h> 中 定义 : 


struct zone { 


unsigned long watermark [NR_ WMARK]; 
unsigned long lowmem reserve [MAX NR ZONES]; 
struct per cpu pageset pageset [NR_CPUS] ; 

spinlock t lock; 

struct free area free area[MAX ORDER] 

spinlock t lru lock; 


struct zone liru { 
struct list head list; 
unsigned long nr_saved scan; 
} lrul{NR LRU LISTS]; 
struct zone reclaim stat reclaim stat; 


unsigned long pages_ scanned; 

unsigned long flags; 

atomic long t vm_stat [NR_VM ZONE STAT_ ITEMS]; 
int prev_priority; 

unsigned int inactive ratio; 

wait_ queue head t *wait_ table; 

unsigned long wait table hash nr entries; 

unsigned long wait table bits; 

struct pglist data *zone pgdat; 

unsigned long zone_ start pfn; 

unsigned long spanned pages; : 

unsigned long present pages; 

const char *name; 


}; 


这 个 结构 体 很 大 ， 但 是 ， 系 统 中 只 有 三 个 区 ， 因 此 ， 也 只 有 三 个 这 样 的 结构 。 让 我 们 看 一 下 
其 中 一 些 重要 的 域 。 

lock 域 是 一 个 自 旋 锁 ， 它 防止 该 结构 被 并 发 访问 。 注 意 ， 这 个 域 只 保护 结构 ， 而 不 保护 驻 
留 在 这 个 区 中 的 所 有 页 。 没 有 特定 的 锁 来 保护 单个 页 ， 但 是 ， 部 分 内 核 可 以 锁 住 在 页 中 驻 留 的 
数据 。 

watermark 数组 持 有 该 区 的 最 小 值 、 最 低 和 最 高 水 位 值 。 内 核 使 用 水 位 为 每 个 内 存 区 设置 合 
适 的 内 存 消耗 基准 。 该 水 位 随 空闲 内 存 的 多 少 而 变化 。 

name 域 是 一 个 以 NULL 结束 的 字符 串 表 示 这 个 区 的 名 字 。 内 核 启 动 期 间 初始 化 这 个 值 ， 其 
代码 位 于 mm/page_ailoc.c 中 。 三 个 区 的 名 字 分 别 为 “DMA”、“Normal” 和 “HighMem”。 


12.3 ”获得 页 


我 们 已 经 对 内 核 如 何 管理 内 存 (页 、 区 等 ) 有 所 了 解 了 ， 现 在 让 我 们 看 一 下 内 核实 现 的 接 
口 ， 我 们 正 是 通过 这 些 接口 在 内 核 内 分 配 和 释放 内 存 的 。 
内 核 提供 了 一 种 请 求 内 存 的 底层 机 制 ， 并 提供 了 对 它 进 行 访问 的 几 个 接口 。 所 有 这 些 接口 都 
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以 页 为 单位 分 配 内 存 ， 定 义 于 <linux/gfp.h> 中 。 最 核心 的 函数 是 : 
struct page * alloc _ pages (9fp t gfp mask, unsigned int order) 


该 函数 分 配 2” (1<<order) 个 连续 的 物理 页 ， 并 返回 一 个 指针 ， 该 指针 指向 第 一 个 页 的 
page 结构 体 ; 如 果 出 错 ， 就 返回 NULL。 在 12.4 节 我 们 再 研究 gft_t 类 型 和 gft_mask 参数 。 你 可 
以 用 下 面 这 个 函数 把 给 定 的 页 转换 成 它 的 逻辑 地 址 : 


void * page address (struct page *page) 


该 函数 返回 一 个 指针 ， 指 向 给 定 物理 页 当前 所 在 的 逻辑 地 址 。 如 果 你 无 须 用 到 struct page， 
你 可 以 调用 : 

unsigned Long _ get free pages(gfp t gfp mask, unsigned int order) 

这 个 函数 与 alloc_pages() 作用 相同 ， 不 过 它 直 接 返 回 所 请 求 的 第 一 个 页 的 逻辑 地 址 。 因 为 页 
是 连续 的 ， 所 以 其 他 页 也 会 紧 随 其 后 。 

如 果 你 只 需 一 页 ， 就 可 以 用 下 面 两 个 封装 好 的 函数 ， 它 能 让 你 少 敲 几 下 键盘 : 


struct page * alloc page (gftp t gfp mask) 
unsigned long __get free pagel(lgfp t gfp_mask) 


这 两 个 函数 与 其 兄弟 函数 工作 方式 相同 ， 只 不 过 传递 给 order 的 值 为 0 (2° = 1 页)。 


12.3.1 ”获得 填充 为 0 的 页 
如 果 你 需要 让 返回 的 页 的 内 容 全 为 0， 请 用 下 面 这 个 函数 : 


unsigned long get zeroed page (unsigned int gfp mask) 


这 个 函数 与 get_free_pages( 工作 方式 相同 ， 只 不 过 把 分 配 好 的 页 都 填充 成 了 0 一 一 字 节 中 
的 每 一 位 都 要 取消 设置 。 如 果 分 配 的 页 是 给 用 户 空间 的 ， 这 个 函数 就 非常 有 用 了 。 虽 说 分 配 好 
的 页 中 应 该 包含 的 都 是 随机 产生 的 垃圾 信息 ， 但 其 实 这 些 信息 可 能 并 不 是 完全 随机 的 一 一 它 很 
可 能 “随机 地 ”包含 某 些 敏 感 数据 。 用 户 空间 的 页 在 返回 之 前 ， 所 有 数据 必须 填充 为 0， 或 做 
其 他 清理 工作 ， 在 保障 系统 安全 这 一 点 上 ， 我 们 决 不 妥协 。 表 12-2 是 所 有 底层 的 页 分 配方 法 
的 列表 。 


表 12-2 ”低级 页 分 配方 法 


alloc_page(gfp_mask) 只 分 配 一 页 ， 返 回 指向 页 结构 的 指针 
alloc_pages(g 印 mask,ordenD 分 配 2™* 个 页 ， 返 回 指 向 第 一 页 页 结构 的 指针 
— Bet free_page(gfp_mask) 只 分 配 一 页 ， 返 回 指向 其 逻辑 地 址 的 指针 

— Bet_ free pages(gfp_mask,order) 分 配 2™™ 页 ， 返 回 指向 第 一 页 逻辑 地 址 的 指针 


get_zeroed page(gfp_mask) 只 分 配 一 页 ， 让 其 内 容 填 充 0， 返 回 指向 其 逻辑 地 址 的 指针 
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12.3.2 ”释放 页 
当 你 不 再 需要 页 时 可 以 用 下 面 的 函数 释放 它们 : 


void _ free pages(struct page *page, unsigned int order) 
void free pages (unsigned long addr, unsigned int order) 
void free page (unsigned long addr) 


释放 页 时 要 谨慎 ， 只 能 释放 属于 你 的 页 。 传 递 了 错误 的 struct page 或 地 址 ， 用 了 错误 的 
order 值 ， 这 些 都 可 能 导致 系统 崩溃 。 请 记 住 ， 内 核 是 完全 信赖 自己 的 。 这 点 与 用 户 空 间 不 同 ， 
如 果 你 有 非法 操作 ， 内 核 会 开 开心 心地 把 自己 挂 起 来 ， 停 止 运 行 。 

让 我 们 看 一 个 例子 。 其 中 ， 我 们 想得到 8 个 页 : 


unsigned long page; 


page = get free pages{(GFP KERNEL, 3); 

if (!page){ 
/* 没有 足够 的 内 存 : 你 必须 处 理 这 种 错误 ! */ 
return -ENOMEM; 


} 

/* “page” 现 在 指向 8 个 连续 页 中 第 1 个 页 的 地 址 . . .*/ 
在 此 ， 我 们 使 用 完 这 8 个 页 之 后 释放 它们 : 
free pages (page, 3); 


* 页 现在 已 经 被 释放 了 ， 我 们 不 应 该 再 访问 
* 存放 在 “page” 中 的 地 址 了 
*/ 


GFP_KERNEL 参数 是 gfp_mask 标志 的 一 个 例子 。 前 面 我 们 已 经 简要 讨论 过 。 

调用 _get_free_pages( 之 后 要 注意 进行 错误 检查 。 内 核 分 配 可 能 失败 ， 因 此 你 的 代码 必须 进 
行 检查 并 做 相应 的 处 理 。 这 意味 在 此 之 前 ， 你 所 做 的 所 有 工作 可 能 前 功 尽 弃 ， 甚 至 还 需要 回归 到 
原来 的 状态 。 正 因为 如 此 ， 在 程序 开始 时 就 先进 行内 存 分 配 是 很 有 意义 的 ， 这 能 让 错误 处 理 得 容 
易 一 点 。 如 果 你 不 这 么 做 ， 那 么 在 你 想 要 分 配 内 存 的 时 候 如果 失 败 了 ， 局 面 可 能 就 难以 控制 了 。 

当 你 需要 以 页 为 单位 的 一 族 连续 物理 页 时 ， 尤 其 是 在 你 只 需要 一 两 页 时 ， 这 些 低级 页 函数 很 
有 用 。 对 于 常用 的 以 字 节 为 单位 的 分 配 来 说 ， 内 核 提供 的 函数 是 kmallocO。 


12.4 kmalloc() 

kmallocO 函数 与 用 户 空 间 的 malloc0 一 族 函 数 非常 类 似 ， 只 不 过 它 多 了 一 个 flags 参数 。 
kmallocO 函数 是 一 个 简单 的 接口 ， 用 它 可 以 获得 以 字 节 为 单位 的 一 块 内 核 内 存 。 如 果 你 需要 
整个 页 ， 那 么 ， 前 面 讨论 的 页 分 配 接口 可 能 是 更 好 的 选择 。 但 是 ， 对 于 大 多 数 内 核 分 配 来 说 ， 
kmalloc0 接口 用 得 更 多 。 

kmalloc0 在 <linux/slab.h> 中 声明 : 


void * kmalloc(size t size, gfp t flags) 
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这 个 函数 返回 一 个 指向 内 存 块 的 指针 ， 其 内 存 块 至 少 要 有 size 大 小 。 所 分 配 的 内 存 区 在 物 
理 上 是 连续 的 。 在 出 错时 ， 它 返回 NULL。 除 非 没 有 足够 的 内 存 可 用 ， 否 则 内 核 总 能 分 配 成 功 。 
在 对 kmalloc0 调用 之 后 ， 你 必须 检查 返回 的 是 不 是 NULL， 如 果 是 ， 要 适当 地 处 理 错误 。 

让 我 们 看 一 个 例子 。 我 们 随便 假定 存在 一 个 dog 结构 体 ， 现 在 需要 为 它 动态 地 分 配 足够 的 空间 : 


struct dog *p; 


P = kmalloc(sizeof (struct dog), GFP KERNEL); 
if (!p) 
/* 处 理 错误 ... */ 
如 果 kmalloc0 调用 成 功 ， 那 么 ，ptr 现在 指向 一 个 内 存 块 ， 内 存 块 的 大 小 至 少 为 所 请 求 的 大 
小 。GFP_KERNEL 标志 表示 在 试图 获取 内 存 并 返回 给 kmalloc0( 的 调用 者 的 过 程 中 ， 内 存 分 配器 


12.4.1 gfp_mask 标志 


我 们 已 经 看 过 了 几 个 例子 ， 发 现 不 管 是 在 低级 页 分 配 函 数 中 ， 还 是 在 kmalloc( 中 ， 都 用 到 
了 分 配器 标志 。 现 在 ， 我 们 就 深入 讨论 一 下 这 些 标志 。 

这 些 标志 可 分 为 三 类 : 行为 修饰 符 、 区 修饰 符 及 类 型 。 行 为 修饰 符 表示 内 核 应 当 如 何 分 配 所 需 
的 内 存 。 在 某 些 特定 情况 下 ， 只 能 使 用 某 些 特定 的 方法 分 配 内 存 。 例 如 ， 中 断 处 理 程序 就 要 求 内 核 
在 分 配 内 存 的 过 程 中 不 能 睡眠 (因为 中 断 处 理 程序 不 能 被 重新 调度 )。 区 修饰 符 表示 从 哪儿 分 配 内 
存 。 前 面 我 们 已 经 看 到 ， 内 核 把 物理 内 存 分 为 多 个 区 ， 每 个 区 用 于 不 同 的 目的 。 区 修饰 符 指明 到 底 
从 这 些 区 中 的 哪 一 区 中 进行 分 配 。 类 型 标志 组 合 了 行为 修饰 符 和 区 修饰 符 ， 将 各 种 可 能 用 到 的 组 合 
归纳 为 不 同类 型 ， 简 化 了 修饰 符 的 使 用 ; 这 样 ， 你 只 需 指定 一 个 类 型 标志 就 可 以 了 。GFP KERNEL 
就 是 一 种 类 型 标志 ， 内 核 中 进程 上 下 文 相 关 的 代码 可 以 使 用 它 。 我 们 来 看 一 下 这 些 标志 。 

1. 行为 修饰 符 

所 有 这 些 标志 ， 包 括 行为 描述 符 都 是 在 <linux/gfp.h> 中 声明 的 。 不 过 ， 在 <linux/slab.h> 中 
包含 有 这 个 头 文件 ， 因 此 ， 你 一 般 不 必 直 接 包 含 引 用 它 。 实 际 上 ， 一 般 只 使 用 类 型 修饰 符 就 够 
了 ， 我 们 随后 会 看 到 这 点 。 因 此 ， 最 好 对 每 个 标志 都 有 所 了 解 。 表 12-3 是 行为 修饰 符 的 列表 。 


表 12-3 行为 修饰 符 


标 ” 志 描 述 
_GFP_WAIT 分 配器 可 以 睡眠 
_GFP_HIGH 分 配器 可 以 访问 紧急 事件 缓冲 地 
_GFP IO 分 配器 可 以 启动 磁盘 IO 
_GFP FS 分 配器 可 以 启动 文件 系统 IO 
_ GFP COLD 分 配器 应 该 使 用 高 速 缓存 中 快要 淘汰 出 去 的 页 
_GFP NOWARN 分 配器 将 不 打印 失败 警告 
_GFP REPEAT 分 配器 在 分 配 失 败 时 重复 进行 分 配 ， 但 是 这 次 分 配 还 存在 失败 的 可 能 


_GFP NOFALL 分 配器 将 无 限 地 重复 进行 分 配 。 分 配 不 能 失败 
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( 续 ) 
_ GFP_ NORETRY 分 配器 在 分 配 失败 时 绝 不 会 重新 分 配 
_GFP_ NO _ GROW 由 slab 层 内 部 使 用 
_GFP_COMP 添加 混合 页 元 数据 ， 在 hugetlb 的 代码 内 部 使 用 
可 以 同时 指定 这 些 分 配 标志 。 例 如 : 
ptr = kmalloc(size, _GFP WAIT | _GFP IO | _GFP Fs); 





说 明 页 分 配器 (最 终 调 用 alloc_pages()) 在 分 配 时 可 以 阻塞 、 执 行 LO， 在 必要 时 还 可 以 执 
行文 件 系 统 操作 。 这 就 让 内 核 有 很 大 的 自由 度 ， 以 便 它 尽 可 能 找到 空闲 的 内 存 来 满足 分 配 请 求 。 

大 多 数 分 配 都 会 指定 这 些 修饰 符 ， 但 一 般 不 是 这 样 直接 指定 ， 而 是 采用 我 们 随后 讨论 的 类 型 
标志 。 别 担心 ， 你 不 会 在 分 配 内 存 时 为 怎样 使 用 这 些 标志 而 犯愁 的 ! 

2. 区 修饰 符 

区 修饰 符 表 示 内 存 区 应 当 从 何 处 分 配 。 通 常 ， 分 配 可 以 从 任何 区 开始 。 不 过 ， 内 核 优先 从 
ZONE_NORMAL 开始 ， 这 样 可 以 确保 其 他 区 在 需要 时 有 足够 的 空闲 页 可 供 使 用 。 

实际 上 只 有 两 个 区 修饰 符 ， 因 为 除了 ZONE_ NORMAL 之 外 只 有 两 个 区 (上 默认 都 是 从 
ZONE_ NORMAL 区 进行 分 配 )。 表 12-4 是 区 修饰 符 的 列表 。 


表 12-4 区 修饰 符 
标志 横 述 
_GFP_ DMA 从 ZONE_DMA 分 配 
_GFP_DMA32 只 在 ZONE_DMA32 分 配 
_GFP_HIGHMEM 从 ZONE_HIGHMEM 或 ZONE NORMAL 分 配 


指定 以 上 标志 中 的 一 个 就 可 以 改变 内 核 试图 进行 分 配 的 区 。_GFP_DMA 标志 强制 内 核 从 
ZONE_DMA 分 配 。 这 个 标志 在 说 ， 有 了 这 种 奇怪 的 标识 ， 我 绝对 可 以 拥有 进行 DMA 的 内 存 。 
相反 ， 如 果 指 定 ”GFP_HIGHEM 标志 ， 则 从 ZONE HIGHMEM (优先 ) 或 ZONE NORMAL 
分 配 。 这 个 标志 在 说 ， 我 可 以 使 用 高 端 内 存 ， 因 此 ， 我 可 以 是 一 个 玩偶 ， 给 你 退还 一 些 内 存 ， 但 
是 ， 常 规 内 存 还 照常 工作 。 如 果 没 有 指定 任何 标志 ， 则 内 核 从 ZONE_DMA 或 ZONE_NORMAL 
进行 分 配 ， 当 然 优先 从 ZONE_NORMAL 进行 分 配 。 不 管区 标志 说 什么 了 ， 只 要 它 行 为 正常 ， 我 
就 不 关心 了 。 

不 能 给 _get_free_pages() 或 kalloc() 指定 ZONE_HIGHMEM， 因 为 这 两 个 函数 返回 的 都 是 好 
辑 地 址 ， 而 不 是 page 结构 ， 这 两 个 函数 分 配 的 内 存 当 前 有 可 能 还 没有 映射 到 内 核 的 虚拟 地 址 空 
间 ， 因 此 ， 也 可 能 根本 就 没有 逻辑 地 址 。 只 有 alloc_pages0 才能 分 配 高 端 内 存 。 实 际 上 ， 你 的 分 
配 在 大 多 数 情况 下 都 不 必 指 定 修饰 符 ，ZONE_NORMAL 就 足 侨 。 

3. 类 型 标志 

类 型 标志 指定 所 需 的 行为 和 区 描述 符 以 完成 特殊 类 型 的 处 理 。 正 因为 这 一 点 ， 内 核 代 码 趋向 
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于 使 用 正确 的 类 型 标志 ， 而 不 是 一 味 地 指定 它 可 能 需要 用 到 的 多 个 描述 符 。 这 么 做 既 简单 又 不 容 
易 出 错误 。 表 12-5 是 类 型 标志 的 列表 ， 而 表 12-6 显示 了 每 个 类 型 标志 与 哪些 修饰 符 相关 联 。 
表 12-5 类 型 标志 
标志 描 述 


GFP_ATOMIC 这 个 标志 用 在 中 断 处 理 程 序 、 下 半 部 、 持 有 自 旋 锁 以 及 其 他 不 能 睡眠 的 地 方 
与 GFP_ATOMIC 类 似 ， 不 同 之 处 在 于 ， 调 用 不 会 退 给 紧急 内 存 池 。 这 就 增加 了 内 存 分 配 失败 


GFP_NOWAIT 的 可 能 性 

ER 这 种 分 配 可 以 着 塞 ， 但 不 会 启动 科 盘 VO。 这 个 标志 在 不 能 引发 更 多 磁盘 IO 时 能 陡 填 70 大 
- 码 ， 这 可 能 导致 令 人 不 愉快 的 递归 

OE OE 这 种 分 配 在 必要 时 可 能 阻 罕 ， 也 可 能 启动 磁盘 JO， 但 是 不 会 启动 文件 系统 操作 。 这 个 标志 在 
- 你 不 能 再 启动 另 -- 个 文件 系统 的 操作 时 ， 用 在 文件 系统 部 分 的 代码 中 

GFP KERNEI | 这 是 一 种 常规 分 配方 式 ， 可 能 会 阻塞 。 这 个 标志 在 睡眠 安全 时 用 在 进程 上 下 文 代码 中 。 为 了 获 


得 调用 者 所 需 的 内 存 ， 内 核 会 尽力 而 为 。 这 个 标志 应 当 是 首选 标志 

GFP_USER 这 是 一 种 常规 分 配方 式 ， 可 能 会 阻塞 。 这 个 标志 用 于 为 用 户 空间 进程 分 配 内 存 时 
GFP_HIGHUSER | 这 是 从 ZONE_HIGHMEM 进行 分 配 ， 可 能 会 阻塞 。 这 个 标志 用 于 为 用 户 空间 进程 分 配 内 存 

这 是 从 ZONE_DAM 进行 分 配 。 需 要 获取 能 供 DMA 使 用 的 内 存 的 设备 驱动 程序 使 用 这 个 标志 ， 


人 通常 与 以 上 的 某 个 标志 组 合 在 一 起 使 用 
表 12-6 ”在 每 种 类 型 标志 后 隐 含 的 修饰 符 列表 
标 志 修饰 符 标志 
GFP_ATOMIC _GFP_HIGH 
GFP_NOWAIT 0 
GFP_NOIO _GFP_WAIT 
GFP NOFS (_GFP WAIT| GFP IO) 
GFP_KERNEL (_GFP WAIT| GFP IO|_GFP FS) 
GFP_USER (_ GFP WAIT| GFP IO| GFP Fs) 
GFP_HIGHUSER (_ GFP WAIT|_ GFP IO| GFP FS|_GFP HIGHMEM) 
GFP_DMA _GFP DMA 


让 我 们 看 一 下 最 常用 的 标志 以 及 你 什么 时 候 、 为 什么 需要 使 用 它们 。 内 核 中 最 常用 的 标志 是 
GFP_KERNEL。 这 种 分 配 可 能 会 引起 睡眠 ， 它 使 用 的 是 普通 优先 级 。 因 为 调用 可 能 阻塞 ， 因 此 
这 个 标志 只 用 在 可 以 重新 安全 调度 的 进程 上 下 文中 (也 就 是 没有 锁 被 持 有 等 情况 )。 因 为 这 个 标 
志 对 内 核 如 何 获 取 请 求 的 内 存 没 有 任何 约束 ， 所 以 内 存 分 配 成 功 的 可 能 性 很 高 。 

另 一 个 截然 相反 的 标志 是 GFP_ATOMIC。 因 为 这 个 标志 表示 不 能 睡眠 的 内 存 分 配 ， 因 此 想 
要 满足 调用 者 获取 内 存 的 请 求 将 会 受到 很 严格 的 限制 。 即 使 没有 足够 的 连续 内 存 块 可 供 使 用 ， 内 
核 也 很 可 能 无 法 释放 出 可 用 内 存 来 ， 因 为 内 核 不 能 让 调用 者 睡眠。 相反 ，GFP_KERNEL 分 配 可 
以 让 调用 者 睡眠、 交换 、 刷 新 一 些 页 到 硬盘 等 。 因 为 GFP_ATOMIC 不 能 执行 以 上 任何 操作 ， 因 
此 与 GFP KERNEL 相 比 较 ， 它 分 配 成 功 的 机 会 较 小 (尤其 在 内 存 短缺 时 )。 即 便 如 此 ， 在 当前 
代码 〈 例 如 中 断 处理 程 序 、 软 中 断 和 tasklet) 不 能 睡眠 时 ， 也 只 能 选择 GFP_ATOMIC。 

在 以 上 两 种 标志 中 间 的 是 GFP NOIO 和 GFP NOFS。 以 这 两 个 标志 进行 的 分 配 可 能 会 引起 
阻塞 ， 但 它们 会 避免 执行 某 些 其 他 操作 。GEP_NOIO 分 配 绝 不 会 启动 任何 磁盘 IO 来 帮助 满足 
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请 求 。 而 GFP_NOFS 可 能 会 启动 磁盘 WO， 但 是 它 不 会 启动 文件 系统 VO。 你 为 什么 需要 这 些 标 
志 ? 它们 分 别 用 在 某 些 低级 块 IO 或 文件 系统 的 代码 中 。 设 想 ， 如 果 文 件 系 统 代码 中 需要 分 配 内 
存 ， 但 没有 使 用 GFP_NOFS。 这 种 分 配 可 能 会 引起 更 多 的 文件 系统 操作 ， 而 这 些 操作 又 会 导致 
另外 的 分 配 ， 从 而 再 引起 更 多 的 文件 系统 操作 ! 这 会 一 直 持 续 下 去 。 这 样 的 代码 在 调用 分 配器 的 
时 候 ， 必 须 确保 分 配器 不 会 再 执行 到 代码 本 身 ， 否 则 ， 分 配 就 可 能 产生 死 锁 。 也 别 紧张 ， 内 核 使 
用 这 两 个 标志 的 地 方 是 极 少 的 。 

GFP_DMA 标志 表示 分 配器 必须 满足 从 ZONE_DMA 进行 分 配 的 请 求 。 这 个 标志 用 在 需要 
DMA 的 内 存 的 设备 驱动 程序 中 。 一 般 你 会 把 这 个 标志 与 GFP_ATOMIC 和 GFP_KERNEL 结合 起 
来 使 用 。 

在 你 编写 的 绝 大 多 数 代码 中 ， 用 到 的 要 么 是 GFP_KERNEL， 要 么 是 GFP_ATOMIC 。 
表 12-7 是 通常 情形 和 所 用 标志 的 列表 。 不 管 使 用 哪 种 分 配 类 型 ， 你 都 必须 进行 检查 ， 并 对 
错误 进行 处 理 。 


表 12-7 什么 时 候 用 哪 种 标志 


情 形 相应 标志 
进程 上 下 文 ， 可 以 睡眠 使 用 GFP_KERNEL 
进程 上 下 文 ， 不 可 以 睡眠 使 用 GFP_ATOMIC， 在 你 睡眠 之 前 或 之 后 以 GFP_KERNEL 执行 内 存 分 配 
中 断 处 理 程序 使 用 GFP_ATOMIC 
软 中 断 使 用 GFP_ATOMIC 
tasklet 使 用 GFP_ATOMIC 
需要 用 于 DMA 的 内 存 ， 可 以 睡眠 使 用 (GFP_DMA | GFP_KERNEL) 


需要 用 于 DMA 的 内 存 ， 不 可 以 睡眠 使 用 (GFP_DMA | GFP_ATOMIC), 或 在 你 睡眠 之 前 执行 内 存 分 配 


12.4.2 kfree() 
kmalloc() 的 另 一 端 就 是 kfree()，kfree() 声明 于 <linux/slab.h> 中 : 


void kfree(const void *ptr) 


kfree() 函数 释放 由 kmalloc0 分 配 出 来 的 内 存 块 。 如 果 想 要 释放 的 内 存 不 是 由 kmalloc0 分 配 
的 ， 或 者 想 要 释放 的 内 存 早 就 被 释放 了 ， 比 如 说 释放 属于 内 核 其 他 部 分 的 内 存 ， 调 用 这 个 函数 
就 会 导致 严重 的 后 果 。 与 用 户 空 间 类 似 ， 分 配 和 回收 要 注意 配对 使 用 ， 以 避免 内 存 泄漏 和 其 他 
bug。 注 意 ， 调 用 kfree (NULL ) 是 安全 的 。 

让 我 们 看 一 个 在 中 断 处 理 程 序 中 分 配 内 存 的 例子 。 在 这 个 例子 中 ， 中 断 处 理 程序 想 分 配 一 个 
缓冲 区 来 保存 输入 数据 。BUF_SIZE 预定 义 为 以 字 节 为 单位 的 缓冲 区 长 度 ， 它 应 该 是 大 于 两 个 字 
节 的 。 

char *buf; 

buf = kmalloc {BUF SIZE, GFP_ATOMIC); 


if (!buf) 
/* 内 存 分 配 出 错 ! */ 
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之 后 ， 当 我 们 不 再 需要 这 个 内 存 时 ， 别 忘 了 释放 它 : 


kfree (bufE) ; 
12.5 vmalloc() 


vmalloc() 函数 的 工作 方式 类 似 于 kmallocO0， 只 不 过 前 者 分 配 的 内 存 虚拟 地 址 是 连续 的 ， 而 
物理 地 址 则 无 须 连 续 。 这 也 是 用 户 空间 分 配 函 数 的 工作 方式 : 由 malloc0 返回 的 页 在 进程 的 虚拟 
地 址 空间 内 是 连续 的 ， 但 是 ， 这 并 不 保证 它们 在 物理 RAM 中 也 是 连续 的 。kmalloc() 函数 确保 页 
在 物理 地 址 上 是 连续 的 (虚拟 地 址 自然 也 是 连续 的 )。vmalloc() 函数 只 确保 页 在 虚拟 地 址 空间 内 
是 连续 的 。 它 通过 分 配 非 连续 的 物理 内 存 块 ， 再 “修正 ”页 表 ， 把 内 存 映 射 到 钦 辑 地 址 空间 的 连 
续 区 域 中 ， 就 能 做 到 这 点 。 

大 多 数 情况 下 ， 只 有 硬件 设备 需要 得 到 物理 地 址 连续 的 内 存 。 在 很 多 体系 结构 上 ， 硬 件 设 备 
存在 于 内 存 管理 单元 以 外 ， 它 根本 不 理解 什么 是 虚拟 地 址 。 因 此 ， 硬 件 设 备用 到 的 任何 内 存 区 都 
必须 是 物理 上 连续 的 块 ， 而 不 仅仅 是 虚拟 地 址 连续 上 的 块 。 而 仅 供 软件 使 用 的 内 存 块 〈 例 如 与 进 
程 相关 的 缓冲 区 ) 就 可 以 使 用 只 有 虚拟 地 址 连续 的 内 存 块 。 但 在 你 的 编程 中 ， 根 本 察觉 不 到 这 种 
差异 。 对 内 核 而 言 ， 所 有 内 存 看 起 来 都 是 逻辑 上 连续 的 。 

尽管 在 某 些 情况 下 才 需 要 物理 上 连续 的 内 存 块 ， 但 是 ， 很 多 内 核 代码 都 用 kmalloc() 来 获 
得 内 存 ， 而 不 是 vmalloc()。 这 主要 是 出 于 性 能 的 考虑 。vmalloc( 函数 为 了 把 物理 上 不 连续 的 页 
转换 为 虚拟 地 址 空间 上 连续 的 页 ， 必 须 专 门 建立 页 表 项 。 精 糕 的 是 ， 通 过 vmalloc0 获得 的 页 必 
须 一 个 一 个 地 进行 映射 (因为 它们 物理 上 是 不 连续 的 )， 这 就 会 导致 比 直 接 内 存 映 射 大 得 多 的 
TLB 9 拌 动 。 因 为 这 些 原 因 ，vmalloc0 仅 在 不 得 已 时 才 会 使 用 一 一 典型 的 就 是 为 了 获得 大 块 内 存 . 
时 ， 例 如 ， 当 模块 被 动态 插入 到 内 核 中 时 ， 就 把 模块 装载 到 由 vmalloc0 分 配 的 内 存 上 。 

vmalloc0 函数 声明 在 <linux/vmalloc.h> 中 ， 定 义 在 <mm/vmalloc.c> 中 。 用 法 与 用 户 空间 的 
malloc() 相同 : 


void * vmalloc (unsigned long size) 


该 函数 返回 一 个 指针 ， 指 向 逻辑 上 连续 的 一 块 内 存 区 ， 其 大 小 至 少 为 size。 在 发 生 错 误 时 ， 
函数 返回 NULL。 函 数 可 能 睡眠 ， 因 此 ， 不 能 从 中 断 上 下 文中 进行 调用 ， 也 不 能 从 其 他 不 允许 阻 
塞 的 情况 下 进行 调用 。 

要 释放 通过 vmalloc() 所 获得 的 内 存 ， 使 用 下 面 的 函数 : 


void vfree (const void *addr) 


这 个 函数 会 释放 从 addr 开始 的 内 存 块 ， 其 中 addr 是 以 前 由 vmalloc0 分 配 的 内 存 块 的 地 址 。 
这 个 函数 也 可 以 睡眠 ， 因 此 ， 不 能 从 中 汤 上 下 文中 调用 。 它 没有 返回 值 。 
这 个 函数 用 起 来 比较 简单 : 


昌 TLB (translation lookaside buffer) 是 一 种 硬 缓冲 区 ， 很 多 体系 结构 用 它 来 缓存 虚拟 地 址 到 物理 地 址 的 映射 关 
系 。 它 极 大 地 提高 了 系统 的 性 能 ， 因 为 大 多 数 内 存 都 要 进行 虚拟 寻 址 。 
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char *buf; 


buf = vmalloc{(16 * PAGE SIZE); /* get 16 pages */ 
if (lbuf) 
/* 错误 ! 不 能 分 配 内 存 */ 


太 


* buf 现在 指向 虚拟 地 址 连续 的 一 块 内 存 区 ， 其 大 小 至 少 为 16*PAGE_SIZE 
*/ 


在 分 配 内 存 之 后 ， 一 定 要 释放 它 : 


vfree (buf); 
12.6 slab 层 


分 配 和 释放 数据 结构 是 所 有 内 核 中 最 普遍 的 操作 之 一 。 为 了 便于 数据 的 频繁 分 配 和 回收 ， 编 
程 人 员 常 常会 用 到 空闲 链表 。 空 闲 链表 包含 可 供 使 用 的 、 已 经 分 配 好 的 数据 结构 块 。 当 代码 需要 
一 个 新 的 数据 结构 实例 时 ， 就 可 以 从 空闲 链表 中 抓 取 一 个 ， 而 不 需要 分 配 内 存 ， 再 把 数据 放 进 
去 。 以 后 ， 当 不 再 需要 这 个 数据 结构 的 实例 时 ， 就 把 它 放 回 空闲 链表 ， 而 不 是 释放 它 。 从 这 个 意 
义 上 说 ， 空 闲 链表 相当 于 对 象 高 速 缓存 一 一 快速 存储 频繁 使 用 的 对 象 类 型 。 

在 内 核 中 ， 空 闲 链表 面临 的 主要 问题 之 一 是 不 能 全 局 控制 。 当 可 用 内 存 变 得 紧缺 时 ， 内 核 无 
流通 知 每 个 空闲 链表 ， 让 其 收缩 缓存 的 大 小 以 便 释 放出 一 些 内存 来 。 实 际 上 ， 内 核 根本 就 不 知道 
存在 任何 空闲 链表 。 为 了 弥补 这 一 缺陷 ， 也 为 了 使 代码 更 加 稳固 ，Linux 内 核 提供 了 slab 层 (也 
就 是 所 谓 的 slab 分 配器 )。slab 分 配器 扮演 了 通用 数据 结构 缓存 层 的 角色 。 

slab 分 配器 的 概念 首先 在 Sun 公司 的 SunOS 5.4 操作 系统 中 得 以 实现 89。Linux 数据 结构 组 
存 层 具有 同样 的 名 字 和 基本 设计 思想 。. 

slab 分 配器 试图 在 几 个 基本 原则 之 间 寻 求 一 种 平衡 : 

， 频繁 使 用 的 数据 结构 也 会 频繁 分 配 和 释放 ， 因 此 应 当 缓存 它们 。 

“ 频繁 分 配 和 回收 必然 会 导致 内 存 碎 片 〈 难 以 找到 大 块 连 续 的 可 用 内 存 )。 为 了 避免 这 种 现 

象 ， 空 闲 链表 的 缓存 会 连续 地 存放 。 因 为 已 释放 的 数据 结构 又 会 放 问 空闲 链表 ， 因 此 不 会 

导致 碎片 。 

“回收 的 对 象 可 以 立即 投入 下 一 次 分 配 ， 因 此 ， 对 于 频繁 的 分 配 和 释放 ， 空 闲 链表 能 够 提高 

其 性 能 。 

“如 果 分 配器 知道 对 象 大 小 、 页 大 小 和 总 的 高 速 缓存 的 大 小 这 样 的 概念 ， 它 会 做 出 更 明智 的 

决策 。 

“ 如 果 让 部 分 缓存 专属 于 单个 处 理 器 〈 对 系统 上 的 每 个 处 理 器 独立 而 唯一 )， 那 么 ， 分 配 和 

释放 就 可 以 在 不 加 SMP 锁 的 情况 下 进行 。 

“ 如 果 分 配器 是 与 NUMA 相关 的 ， 它 就 可 以 从 相同 的 内 存 节点 为 请 求 者 进行 分 配 。 

。 对 存放 的 对 象 进行 着 色 (color)， 以 防止 多 个 对 象 映射 到 相同 的 高 速 缓 存 行 〈cache line )。 

Linux 的 slab 层 在 设计 和 实现 时 充分 考虑 了 上 述 原则 。 


日 参看 J. Bonwick 所 著 的 《The Slab Allocator : An Object-Caching Kernel Memory Allocator》，USENIX，1994。 
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12.6.1 _ slab 层 的 设计 


slab 层 把 不 同 的 对 象 划分 为 所 谓 高 速 缓存 组 ， 其 中 每 个 高 速 缓存 组 都 存放 不 同类 型 的 对 象 。 
每 种 对 象 类 型 对 应 一 个 高 速 缓存 。 例 如， 一 个 高 速 缓存 用 于 存放 进程 描述 符 〈task_struct 结构 的 
一 个 空闲 链表 )， 而 另 一 个 高 速 缓存 存放 索引 节点 对 象 〈struct inode)。 有 趣 的 是 ，kmallocO 接口 
建立 在 slab 层 之 上 ， 使 用 了 一 组 通用 高 速 缓存 。 

然后 ， 这 些 高 速 缓存 又 被 划分 为 slab (这 也 是 这 个 子 系统 名 字 的 来 由 )。slab 由 一 个 或 多 个 物 
理 上 连续 的 页 组 成 。 一 般 情况 下 ，slab 也 就 仅仅 由 一 页 组 成 。 每 个 高 速 缓存 可 以 由 多 个 slab 组 成 。 

每 个 slab 都 包含 一 些 对 象 成 员 ， 这 里 的 对 象 指 的 是 被 缓存 的 数据 结构 。 每 个 slab 处 于 三 种 
状态 之 一 : 满 、 部 分 满 或 空 。 一 个 满 的 slab 没有 空闲 的 对 象 〈slab 中 的 所 有 对 象 都 已 被 分 配 )。 
一 个 空 的 slab 没有 分 配 出 任何 对 象 〈slab 中 的 所 有 对 象 都 是 空闲 的 )。 一 个 部 分 满 的 slab 有 一 些 
对 象 已 分 配 出 去 ， 有 些 对 象 还 空闲 着 。 当 内 核 的 某 一 部 分 需要 一 个 新 的 对 象 时 ， 先 从 部 分 满 的 
slab 中 进行 分 配 。 如 果 没 有 部 分 满 的 slab， 就 从 空 的 slab 中 进行 分 配 。 如 果 没 有 空 的 slab， 就 要 
创建 一 个 slab 了。 显然 ， 满 的 slab 无 法 满足 请 求 ， 因 为 它 根 本 就 没有 空闲 的 对 象 。 这 种 策略 能 
减少 碎片 。 

作为 一 个 例子 ， 让 我 们 考察 一 下 inode 结构 ， 该 结构 是 磁盘 索引 节点 在 内 存 中 的 体现 〈( 参 
见 第 13 章 )。 这 些 数据 结构 会 频繁 地 创建 和 释放 ， 因 此 ， 用 slab 分 配器 来 管理 它们 就 很 有 必要 。 
因而 struct inode 就 由 inode_cachep 高 速 缓存 (这 是 一 种 标准 的 命名 规范 ) 进行 分 配 。 这 种 高 速 
缓存 由 一 个 或 多 个 slab 组 成 一 一 由 多 个 slab 组 成 的 可 能 性 大 一 些 ， 因 为 这 样 的 对 象 数量 很 大 。 
每 个 slab 包含 尽 可 能 多 的 struct inode 对 象 。 当 内 核 请 求 分 配 一 个 新 的 inode 结构 时 ， 内 核 就 从 部 
分 满 的 slab 或 空 的 slab (如 果 没 有 部 分 满 的 slab) 返回 一 个 指向 已 分 配 但 未 使 用 的 结构 的 指针 。 
当 内 核 用 完 inode 对 象 后 ，slab 分 配器 就 把 该 对 象 标记 为 空 亲 。 图 12-1 显示 了 高 速 缓存 、slab 及 
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图 12-1 高 速 缓存 、slab 及 对 象 之 间 的 关系 
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每 个 高 速 缓存 都 使 用 kmem_cache 结构 来 表示 。 这 个 结构 包含 三 个 链表 : slabs_full、slabs_ 
partial 和 slabs_empty， 均 存放 在 kmem list3 结构 内 , 该 结构 在 mm/slab.c 中 定义 。 这 些 链 表 包 含 
高 速 缓存 中 的 所 有 slab。slab 描述 符 struct slab 用 来 描述 每 个 slab : 


struct slab { 


struct list head list; /* 满 、 部 分 满 或 空 链表 */ 
unsigned long colouroff; /* slab 着 色 的 偏 移 量 */ 

void *s_mem; /* 在 slab 中 的 第 一 个 对 象 */ 
unsigned int inuse; /* slab 中 已 分 配 的 对 象 数 */ 

kmem bufctl t free; /* 第 一 个 空闲 对 象 〈 如 果 有 的 话 ) */ 


} 

slab 描述 符 要 么 在 slab 之 外 另行 分 配 ， 要 么 就 放 在 slab 自身 开始 的 地 方 。 如 果 slab 很 小 ， 
或 者 slab 内 部 有 足够 的 空间 容纳 slab 描述 符 ， 那 么 描述 符 就 存放 在 slab 里 面 。 

slab 分 配器 可 以 创建 新 的 slab， 这 是 通过 _get_free_ pages0 低级 内 核 页 分 配器 进行 的 : 


static void *kmem getpages (Struct kmem cache *cachep, gfp t flags, int nodeid) 


{ 
struct page *page; 
void *addr; 
int i; 


flags |= cachep->gfpflags; 


if (likely (nodeid == -1)) { 
addr = (void*) get free pages (flags, cachep->gfporder); 
if (!addr) 
return NULL; 
page = virt to page (laddar),， 
} else { 
page = alloc pages node (nodeid, flags, cachep->gfporder); 
if (!page) 
return NULL; 


addr = page address (page); 


} 


i= (1 << cachep->gfporder); 
if (cachep->flags & SLAB RECLAIM ACCOUNT) 
atomic adali, &slab reclaim pages); 
add page statel(nr slab, i); 
while (i--) { 
SetPageSlLab (page) ; 
paget++; 
} 


return addr; 


} 


该 函数 使 用 _get_free_pages0 来 为 高 速 缓存 分 配 足够 多 的 内 存 。 该 函数 的 第 一 个 参数 就 指向 
需要 很 多 页 的 特定 高 速 缓存 。 第 二 个 参数 是 要 传 给 _get_free_pages0 的 标志 ， 注 意 这 个 标志 是 如 
何 与 另 一 个 值 进行 二 进 制 “ 或 ”运算 的 ， 这 相当 于 把 高 速 缓存 需要 的 缺 省 标志 加 到 flags 参数 上 。 
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分 配 的 页 大 小 为 2 的 笑 次 方 ， 存 放 在 cachep->gfporder 中 。 由 于 与 分 配器 NUMA 相关 的 代码 的 
关系 前 面 这 个 函数 比 想象 的 要 复杂 一 些 。 当 nodeid 是 一 个 非 负 数 时 ， 分 配器 就 试图 对 从 相同 的 
内 存 节 点 给 发 出 的 请 求 进行 分 配 。 这 在 NUMA 系统 上 提供 了 较 好 的 性 能 ， 但 是 访问 节点 之 外 的 
内 存 会 导致 性 能 的 损失 。 

为 了 便于 理解 ， 我 们 可 以 忽略 与 NUMA 相关 的 代码 ， 写 一 个 简单 的 kmem_getpages0 消 数 : 


static inline void * kmem getpages (struct kmem cache *cachep, gfp t flags) 


{ 


void *addr; 


flags |= cachep->gfpflags; 
addr = (void*) _ get free pages(flags, cachep->gfporder); 


return addr; 


} 


接着 ， 调 用 kmem freepages( 释放 内 存 ， 而 对 给 定 的 高 速 缓存 页 ，kmem_freepages() 最 终 调 
用 的 是 free_pages()。 当 然 ，slab 层 的 关键 就 是 避免 频繁 分 配 和 释放 页 。 由 此 可 知 ，slab 层 只 有 当 
给 定 的 高 速 缓存 部 分 中 既 没 有 满 也 没有 空 的 slab 时 才 会 调用 页 分 配 函 数 。 而 只 有 在 下 列 情况 下 
才 会 调用 释放 函数 : 当 可 用 内 存 变 得 紧缺 时 ， 系 统 试图 释放 出 更 多 内 存 以 供 使 用 ; 或 者 当 高 速 组 
存 显 式 地 被 撤销 时 。 

slab 层 的 管理 是 在 每 个 高 速 缓存 的 基础 上 ， 通 过 提供 给 整个 内 核 一 个 简单 的 接口 来 完成 的 。 
通过 接口 就 可 以 创建 和 撤销 新 的 高 速 缓存 ， 并 在 高 速 缓存 内 分 配 和 释放 对 象 。 高 速 缓存 及 其 内 
slab 的 复杂 管理 完全 通过 slab 层 的 内 部 机 制 来 处 理 。 当 你 创建 了 一 个 高 速 缓 存 后 ，slab 层 所 起 的 
作用 就 像 一 个 专用 的 分 配器 ， 可 以 为 具体 的 对 象 类 型 进行 分 配 。 


12.6.2 slab 分 配器 的 接口 
一 个 新 的 高 速 缓存 通过 以 下 函数 创建 : 


struct kmem cache * kmem cache create(const char *name, 
size t size, 
size t align, 
unsigned long flags, 
void {*ctor) (void *)); 


第 一 个 参数 是 一 个 字符 串 ， 存 放 着 高 速 缓 存 的 名 字 ; 第 二 个 参数 是 高 速 缓存 中 每 个 元 素 的 大 
小 ; 第 三 个 参数 是 slab 内 第 一 个 对 象 的 偏 移 ， 它 用 来 确保 在 页 内 进行 特定 的 对 齐 。 通 常情 况 下 ， 
0 就 可 以 满足 要 求 ， 也 就 是 标准 对 齐 。flags 参数 是 可 选 的 设置 项 ， 用 来 控制 高 速 缓存 的 行为 。 它 
可 以 为 0， 表示 没 有 特殊 的 行为 ， 或 者 与 以 下 标志 中 的 一 个 或 多 个 进行 “或 ”运算 : 
“SLAB_HWCACHE_ALIGN 一 一 这 个 标志 命令 slab 层 把 一 个 slab 内 的 所 有 对 象 按 高 速 缓 
存 行 对 齐 。 这 就 防止 了 “错误 的 共享 "(两 个 或 多 个 对 象 尽管 位 于 不 同 的 内 存 地 址 ， 但 映 
射 到 相同 的 高 速 缓存 行 )。 这 可 以 提高 性 能 ， 但 以 增加 内 存 开 销 为 代价 ， 因 为 对 齐 越 严格 ， 
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浪费 的 内 存 就 越 多 。 到 底 会 耗费 掉 多 少 内 存 ， 取 决 于 对 象 的 大 小 以 及 对 象 相对 于 系统 高 速 

缓存 行 对 齐 的 方式 。 对 于 会 频繁 使 用 的 高 速 缓存 ， 而 且 代 码 本 身 对 性 能 要 求 又 很 严格 的 情 

况 ， 设 置 该 选项 是 理想 的 选择 ; 否则 ， 请 三 思 而 后 行 。 

。SLAB_POISON 一 一 这 个 标志 使 slab 层 用 已 知 的 值 (a5a5a5a5) 填充 slab。 这 就 是 所 谓 的 

“中 毒 ” 有 利于 对 未 初始 化 内 存 的 访问 。 

“SLAB RED_ZONE 一 一 这 个 标志 导致 slab 层 在 已 分 配 的 内 存 周围 插入 “红色 警 界 区 ”以 探 

测 缓冲 越界 。 

。SLAB_PANIC 一 一 这 个 标志 当 分 配 失败 时 提醒 slab 层 。 这 在 要 求 分 配 只 能 成 功 的 时 候 非 常 

有 用 。 比 如 ， 在 系统 初 启 时 分 配 一 个 VMA 结构 的 高 速 缓存 〈 参 见 第 15 章 )。 

。SLAB_CACHE_DMA 一 一 这 个 标志 命令 slab 层 使 用 可 以 执行 DMA 的 内 存 给 每 个 slab 分 配 

空间 。 只 有 在 分 配 的 对 象 用 于 DMA， 而 且 必 须 驻 留 在 ZONE_DMA 区 时 才 需 要 这 个 标志 。 

否则 ， 你 既 不 需要 也 不 应 该 设置 这 个 标志 。 

最 后 一 个 参数 ctor 是 高 速 缓存 的 构造 函数 。 只 有 在 新 的 页 追加 到 高 速 缓存 时 ， 构 造 函 数 才 
被 调用 。 实 际 上 ，Linux 内 核 的 高 速 缓存 不 使 用 构造 函数 。 事 实 上 这 里 曾经 还 有 过 一 个 析 构 函数 
参数 ， 但 是 由 于 内 核 代码 并 不 需要 它 ， 因 此 已 经 被 抛弃 了 。 你 可 以 将 ctor 参数 赋值 为 NULL。 

kmem_cache_create() 在 成 功 时 会 返回 一 个 指向 所 创建 高 速 缓存 的 指针 ; 否则 ， 返 回 NULL。 
这 个 函数 不 能 在 中 断 上 下 文中 调用 ， 因 为 它 可 能 会 睡眠 。 

要 撤销 一 个 高 速 缓存 ， 则 调用 : 


int kmem cache destroy(struct kmem cache *cachep) 


顾名思义 ， 这 样 就 可 以 撤销 给 定 的 高 速 缓存 。 这 个 函数 通常 在 模块 的 注销 代码 中 被 调用 ， 当 
然 ， 这 里 指 创建 了 自己 的 高 速 缓存 的 模块 。 同 样 ， 也 不 能 从 中 断 上 下 文中 调用 这 个 函数 ， 因 为 它 
也 可 能 睡眠 。 调 用 该 函数 之 前 必须 确保 存在 以 下 两 个 条 件 : 

* 高速 缓存 中 的 所 有 slab 都 必须 为 空 。 其 实 ， 不 管 哪个 slab 中 ， 只 要 还 有 一 个 对 象 被 分 配 出 

去 并 正在 使 用 的 话 ， 那 怎么 可 能 撤销 这 个 高 速 缓存 呢 ? 

。 在 调用 kmem_cache_destroy() 过 程 中 (更 不 用 说 在 调用 之 后 了 ) 不 再 访问 这 个 高 速 缓存 。 

调用 者 必须 确保 这 种 同步 。 

该 函数 在 成 功 时 返回 0， 否 则 返回 非 0 值 。 

1. 从 缓存 中 分 配 

创建 高 速 缓存 之 后 ， 就 可 以 通过 下 列 函数 获取 对 象 : 


void * kmem cache alloc(struct kmem cache *cachep, gfp t flags) 


该 函数 从 给 定 的 高 速 缓 存 cachep 中 返回 一 个 指向 对 象 的 指针 。 如 果 高 速 缓 存 的 所 有 slab 中 
都 没有 空闲 的 对 象 ， 那 么 slab 层 必须 通过 kmem_getpages() 获取 新 的 页 ，flags 的 值 传递 给 _get_ 
free_pages()。 这 与 我 们 前 面 看 到 的 标志 相同 ， 你 用 到 的 应 该 是 GFP_KERNEL 或 GFP_ATOMIC。 

最 后 释放 一 个 对 象 ， 并 把 它 返 回 给 原先 的 slab， 可 以 使 用 下 面 这 个 函数 : 


void kmem cache free (Struct kmem cache *cachep, void *objp) 
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这 样 就 能 把 cachep 中 的 对 象 objp 标记 为 空闲 。 

2. slab 分 配器 的 使 用 实例 

让 我 们 考察 一 个 鲜 活 的 实例 ， 这 个 例子 用 的 是 task_struct 结构 (进程 描述 符 )。 代 码 稍微 有 
点 复杂 ， 取 自 kernel/fork.c。 

首先 ， 内 核 用 一 个 全 局 变量 存放 指向 task_struct 高 速 缓存 的 指针 : 


struct kmem cache *task struct cachep; 
在 内 核 初始 化 期 间 ， 在 定义 于 kemelfork.c 的 fork_init( 中 会 创建 高 速 缓存 : 


task_struct_cachep = kmem cache create("“task struct”, 
sizeof {struct task struct), 
ARCH MIN TASKALIGN, 
SLAB PANIC | SLAB_ NOTRACK, 
NULL); 


这 样 就 创建 了 一 个 名 为 task_struct 的 高 速 缓存 ， 其 中 存放 的 就 是 类 型 为 struct task_struct 
的 对 象 。 该 对 象 被 创建 后 存放 在 slab 中 偏 移 量 为 ARCH MIN_TASKALIGN 个 字 节 的 地 方 ， 
ARCH _MIN_TASKALIGN 预定 义 值 与 体系 结构 相关 。 通 常 将 它 定义 为 Ll_CACHE_BYTES 一 一 
Ll 高速 缓存 的 字 节 大 小 。 没 有 构造 函数 或 析 构 函数 。 注 意 不 用 检查 返回 值 是 否 为 失败 标记 
NULL， 因 为 SLAB_PANIC 标志 已 经 被 设置 了 。 如 果 分 配 失 败 ，slab 分 配器 就 调用 panic() 函数 。 
如 果 没 有 提供 SLAB_PANIC 标志 ， 就 必须 自己 检查 返回 值 。SLAB_PANIC 标志 用 在 这 儿 是 因为 
这 是 系统 操作 必 不 可 少 的 高 速 缓存 (没有 进程 描述 符 ， 机 器 自然 不 能 正常 运行 )。 

每 当 进 程 调用 fork() 时 ， 一 定 会 创建 一 个 新 的 进程 描述 符 〈 回 忆 一 下 第 3 章 )。 这 是 在 dup_ 
task_sturct() 中 完成 的 ， 而 该 函数 会 被 do_forkO 调用 : 


struct task struct *tsk; 


tsk = kmem cache alloc(task struct cachep, GFP_ KERNEL); 
if (!tsk) 
return NULL; 


进程 执行 完 后 ， 如 果 没 有 子 进程 在 等 待 的 话 ， 它 的 进程 描述 符 就 会 被 释放 ， 并 返回 给 task_ 
struct_cachep slab 高 速 缓存 。 这 是 在 free_task_struct() 中 执行 的 (这 里 ，tsk 是 现 有 的 进程 ): 


kmem cache freel(task struct cachep, tsk); 


由 于 进程 描述 符 是 内 核 的 核心 组 成 部 分 ， 时 刻 都 要 用 到 ， 因 此 task_struct_cachep 高 速 缓存 
绝 不 会 被 撤销 掉 。 即 使 真能 撤销 ， 我 们 也 要 通过 下 列 函 数 阻止 其 被 撤销 : 


int err; 


err = kmem cache destroyl(task struct cachep); 
if (err) 
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/* 出 错 ， 橄 销 高 速 缓 存 */ 


很 容易 吧 ? slab 层 负 责 内 存 紧缺 情况 下 所 有 底层 的 对 齐 、 着 色 、 分 配 、 释 放 和 回收 等 。 如 
果 你 要 频繁 创建 很 多 相同 类 型 的 对 象 ， 那 么 ， 就 应 该 考虑 使 用 slab 高 速 缓 存 。 也 就 是 说 ， 不 要 
自己 去 实现 空闲 链表 ! 


12.7 ”在 栈 上 的 静态 分 配 


在 用 户 空间 ， 我 们 以 前 所 讨论 到 的 那些 分 配 的 例子 ， 有 不 少 都 可 以 在 栈 上 发 生 。 因 为 我 们 毕 
竟 可 以 事先 知道 所 分 配 空间 的 大 小 。 用 户 空 间 能 够 奢侈 地 负担 起 非常 大 的 栈 ， 而 且 栈 空 间 还 可 以 
动态 增长 ， 相 反 ， 内 核 却 不 能 这 么 奢侈 一 内 核 栈 小 而 且 固定 。 当 给 每 个 进程 分 配 一 个 固定 大 小 
的 小 栈 后 ， 不 但 可 以 减少 内 存 的 消耗 ， 而 且 内 核 也 无 须 负 担 太 重 的 栈 管 理 任务 。 

每 个 进程 的 内 核 栈 大 小 既 依赖 体系 结构 ， 也 与 编译 时 的 选项 有 关 。 历 史上 ， 每 个 进程 都 有 两 
页 的 内 核 栈 。 因 为 32 位 和 64 位 体系 结构 的 页 面 大 小 分 别 是 4&KB 和 8KB， 所 以 通常 它们 的 内 核 
栈 的 大 小 分 别 是 8KB 和 16KB。 


12.7.1 单 页 内 核 栈 


但 是 ， 在 2.6 系列 内 核 的 早期 ， 引 入 了 一 个 选项 设置 单 页 内 核 栈 。 当 激活 这 个 选项 时 ， 每 个 
进程 的 内 核 栈 只 有 一 页 那么 大 ， 根 据 体系 结构 的 不 同 ， 或 为 4KB， 或 为 8KB。 这 么 做 出 于 两 个 
原因 : 首先 ， 可 以 让 每 个 进程 减少 内 存 消 耗 。 其 次 ， 也 是 最 重要 的 ， 随 着 机 器 运行 时 间 的 增加 ， 
寻找 两 个 未 分 配 的 、 连 续 的 页 变 得 越 来 越 困 难 。 物 理 内 存 渐渐 变 为 碎片 ， 因 此 ， 给 一 个 新 进程 分 
配 虚拟 内 存 (VM) 的 压力 也 在 增 大 。 

还 有 一 个 更 复杂 的 原因 。 继 续 跟 随 我 : 我 们 几乎 掌握 了 关于 内 核 栈 的 全 部 知识 。 现 在 ， 每 个 
进程 的 整个 调用 链 必须 放 在 自己 的 内 核 栈 中 。 不 过 ， 中 断 处 理 程序 也 曾经 使 用 它们 所 中 断 的 进程 
的 内 核 栈 ， 这 样 ， 中 断 处 理 程序 也 要 放 在 内 核 栈 中 。 这 当然 有 效 而 简单 ， 但 是 ， 这 同时 会 把 更 严 
格 的 约束 条 件 加 在 这 可 怜 的 内 核 栈 上 。 当 我 们 转 而 使 用 只 有 一 个 页 面 的 内 核 栈 时 ， 中 断 处 理 程序 
就 不 放 在 栈 中 了 。 

为 了 矫正 这 个 问题 ， 内 核 开 发 者 们 实现 了 一 个 新 功能 : 中 断 栈 。 中 断 栈 为 每 个 进程 提供 一 个 
用 于 中 断 处 理 程 序 的 栈 。 有 了 这 个 选项 ， 中 断 处 理 程序 不 用 再 和 被 中 断 进 程 共享 一 个 内 核 栈 ， 它 
们 可 以 使 用 自己 的 栈 了 。 对 每 个 进程 来 说 仅仅 耗费 了 一 页 而 已 。 

总 的 来 说 , 内 核 栈 可 以 是 1 页 ,也 可 以 是 2 页 ,这 取决 于 编译 时 配置 选项 。 栈 大 小 因此 在 
4 一 16KB 的 范围 内 。 历 史上 , 中 断 处 理 程序 和 被 中 断 进程 共享 一 个 栈 。 当 1 页 栈 的 选项 激活 时 ， 
中 断 处 理 程序 获得 了 自己 的 栈 。 在 任何 情况 下 , 无 限制 的 递归 和 alloca0 显然 是 不 被 允许 的 。 

好 ， 就 讲 到 这 里 。 大 家 明白 了 吗 ? 


12.7.2 ”在 栈 上 光明 正大 地 工作 


在 任意 一 个 函数 中 ， 你 都 必须 尽量 节省 栈 资 源 。 这 并 不 难 ， 也 没有 什么 窍门 ， 只 需要 在 具体 
的 函数 中 让 所 有 局 部 变量 〈 即 所 谓 的 自动 变量 ) 所 占 空 间 之 和 不 要 超过 几 百 字 节 。 在 栈 上 进行 大 
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量 的 静态 分 配 (比如 分 配 大 型 数组 或 大 型 结构 体 〉 是 很 危险 的 。 要 不 然 ， 在 内 核 中 和 在 用 户 空间 
中 进行 的 栈 分 配 就 没有 什么 差别 了 。 栈 溢出 时 悄 无 声息 ， 但 势必 会 引起 严重 的 问题 。 因 为 内 核 没 
有 在 管理 内 核 栈 上 做 足 工作 ， 因 此 ， 当 栈 溢出 时 ， 多 出 的 数据 就 会 直接 溢出 来 ， 覆 盖 掉 紧邻 堆栈 
末端 的 东西 。 首 先 面临 考验 的 就 是 thread info 结构 (回想 一 下 第 3 章 ， 这 个 结构 就 贴 着 每 个 进 
程 内 核 堆 栈 的 末端 )。 在 堆栈 之 外 ， 任 何 内 核 数 据 都 可 能 存在 带 在 的 危险 。 当 栈 溢出 时 ， 最 好 的 
情况 是 机 器 宕 机 ， 最 坏 的 情况 是 悄 无 声息 地 破坏 数据 。 

因此 ， 进 行动 态 分 配 是 一 种 明智 的 选择 ， 本 章 前 面 有 关 大 块 内 存 的 分 配 就 是 采用 这 种 方式 。 


12.8 高 端 内 存 的 映射 


根据 定义 ， 在 高 端 内 存 中 的 页 不 能 永久 地 映射 到 内 核 地 址 空间 上 。 因 此 ， 通 过 alloc_pages() 
函数 以 _GFP_HIGHMEM 标志 获得 的 页 不 可 能 有 逐 辑 地 址 。 

在 x86 体系 结构 上 ， 高 于 896MB 的 所 有 物理 内 存 的 范围 大 都 是 高 端 内 存 ， 它 并 不 会 永久 
地 或 自动 地 映射 到 内 核 地 址 空间 ， 尽 管 x86 处 理 器 能 够 寻 址 物理 RAM 的 范围 达到 4GB (启用 
PAE 信 可 以 寻 址 到 64GB)。 一 旦 这 些 页 被 分 配 ， 就 必须 映射 到 内 核 的 逻辑 地 址 空间 上 。 在 x86 
上 ， 高 端 内 存 中 的 页 被 映射 到 3GB ~ 4GB。 


12.8.1 永久 映射 


要 映射 一 个 给 定 的 page 结构 到 内 核 地 址 空间 ， 可 以 使 用 定义 在 文件 <linux/highmem.h> 中 的 
这 个 函数 : 


void *kmap (Struct page *page) 


这 个 函数 在 高 端 内 存 或 低 端 内 存 上 都 能 用 。 如 果 page 结构 对 应 的 是 低 端 内 存 中 的 一 页 ， 国 
只 会 单纯 地 返回 该 页 的 虚拟 地 址 。 如 有 果 页 位 于 高 端 内 存 ， 则 会 建立 一 个 永久 映射 ,再 返回 地 
址 。 这 个 函数 可 以 睡眠 ， 因 此 kmap() 只 能 用 在 进程 上 下 文中 。 
因为 允许 永久 映射 的 数量 是 有 限 的 〈 如 果 没有 这 个 限制 ， 我 们 就 不 必 搞 得 这 么 复杂 ， 把 所 有 
内 存 通通 映射 为 永久 内 存 就 行 了 )， 当 不 再 需要 高 端 内 存 时 ， 应 该 解除 映射 ， 这 可 以 通过 下 列 函 
数 完成 : 
void kunmap (struct page *page) 


12.8.2 ”临时 映射 


当 必 须 创建 一 个 映射 而 当前 的 上 下 文 又 不 能 睡眠 时 ， 内 核 提供 了 临时 映射 〈 也 就 是 所 谓 的 原 
子 映 射 )。 有 一 组 保留 的 上 映射， 它们 可 以 存放 新 创建 的 临时 映射 。 内 核 可 以 原子 地 把 高 端 内 存 中 
的 一 个 页 映射 到 某 个 保留 的 映射 中 。 因 此 ， 临 时 映射 可 以 用 在 不 能 睡眠 的 地 方 ， 比 如 中 断 处 理 程 
序 中 ， 因 为 获取 映射 时 绝 不 会 阻塞 。 


日 PAE 是 Physical Address Extension 的 缩写 ， 这 是 x86 处 理 器 的 特点 ， 这 种 特点 使 得 x86 处 理 器 尽管 只 有 32 位 
的 虚拟 地 址 空间 ， 但 从 物理 上 能 寻 址 到 36 位 (64GB) 的 内 存 空间 。 
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通过 下 列国 数 建立 一 个 临时 映射 : 
void *kmap atomic(struct page *page, enum km type type) 


参数 type 是 下 列 枚 举 类 型 之 一 ， 这 些 枚 举 类 型 描述 了 临时 映射 的 目的 。 它 们 定义 于 <asm/ 
kmap types.h> 中 : 


enum km type { 
KM _ BOUNCE READ, 
KM_SKB_SUNRPC_DATA, 
KM_SKB_DATA SOFTIRQ, 
KM_USER0， 
KM_USER1, 
KM BIO_SRC_IRQ, 
KM_BIO DST_IRQ, 
KM_PTE0， 
KM_PTE1， 
KM_PTE2, 
KM_IRQ0， 
KM IRQ1, 
KM SOFTIRQO, 
KM SOFTIRQ1, 
KM_SYNC_ICACHE, 
KM_SYNC_DCACHE, 
KM_UML_USERCOPY， 
KM_IRQ_PTE， 
KM_NMI, 
KM_NMI_PTE, 
KM_TYPE_NR 


}; 


这 个 函数 不 会 阻塞 ， 因 此 可 以 用 在 中 断 上 下 文 和 其 他 不 能 重新 调度 的 地 方 。 它 也 禁止 内 核 抢 
占 ,， 这 是 有 必要 的 ， 因 为 映射 对 每 个 处 理 器 都 是 唯一 的 (调度 可 能 对 哪个 处 理 器 执行 哪个 进程 做 
变动 )。 

通过 下 列 函 数 取 消 映 射 : 


void kunmap_atomic (void *kvaddr, enum km type type) 


这 个 函数 也 不 会 阻塞 。 在 很 多 体系 结构 中 ， 除 非 激 活 了 内 核 抢占 ， 否 则 kmap_atomic0 根本 
就 无 事 可 做 ， 因 为 只 有 在 下 一 个 临时 映射 到 来 前 上 一 个 临时 映射 才 有 效 。 因 此 ， 内 核 完全 可 以 
“忘掉 ”kmap_atomic( 映射 ，kunmap_atomic( 也 无 须 做 什么 实际 的 事情 。 下 一 个 原子 映射 将 自动 
覆盖 前 一 个 映射 。 


12.9 每 个 CPU 的 分 配 


支持 SMP 的 现代 操作 系统 使 用 每 个 CPU 上 的 数据 , 对 于 给 定 的 处 理 器 其 数据 是 唯一 的 。 一 
般 来 说 ， 每 个 CPU 的 数据 存放 在 一 个 数组 中 。 数 组 中 的 每 一 项 对 应 着 系统 上 一 个 存在 的 处 理 器 。 
按 当前 处 理 器 号 确定 这 个 数组 的 当前 元 素 ， 这 就 是 2.4 内 核 处 理 每 个 CPU 数据 的 方式 。 这 种 方 
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式 还 不 错 ， 因 此 ，2.6 内 核 的 很 多 代码 依然 用 它 。 可 以 声明 数据 如 下 : 


unsigned long my_Percpu [INR_CPUS] ; 


然后 ， 按 如 下 方式 访问 它 : 


int cpu; 

cpu = get_cpu(); /* 获得 当前 处 理 器 ， 并 禁止 内 核 抢占 */ 
my_pezcpu [cpul++; /* ... 或 者 无 论 什么 */ 

printk("my percpu on cpu=%d is %lu\n", cpu, my_percpul[cpul); 
put_cpu(); /* 激活 内 核 抢占 */ 


注意 ， 上 面 的 代码 中 并 没有 出 现 锁 ， 这 是 因为 所 操作 的 数据 对 当前 处 理 器 来 说 是 唯一 的 。 除 
了 当前 处 理 器 之 外 ， 没 有 其 他 处 理 器 可 接触 到 这 个 数据 ， 不 存在 并 发 访问 问题 ， 所 以 当前 处 理 器 
可 以 在 不 用 锁 的 情况 下 安全 访问 它 。 

现在 ， 内 核 抢 占 成 为 了 唯一 需要 关注 的 问题 了， 内 核 抢占 会 引起 下 面 提 到 的 两 个 问题 : 

* 如果 你 的 代码 被 其 他 处 理 器 抢占 并 重新 调度 ， 那 么 这 时 CPU 变量 就 会 无 效 ， 因 为 它 指 向 

的 是 错误 的 处 理 器 通常， 代码 获 得 当前 处 理 器 后 是 不 可 以 睡眠 的 )。 

“ 如果 另 一 个 任务 抢占 了 你 的 代码 ， 那 么 有 可 能 在 同一 个 处 理 器 上 发 生 并 发 访问 my_percpu 

的 情况 ， 显 然 这 属于 一 个 竞争 条 件 。 

虽然 如 此 ， 但 是 你 大 可 不 必 惊 懂 ， 因 为 在 获取 当前 处 理 器 号 ， 即 调用 get_cpu0 时 ， 就 已 经 
禁止 了 内 核 抢占 。 相 应 的 在 调用 put_cpu0 时 又 会 重新 激活 当前 处 理 器 号 。 注 意 ， 只 要 你 总 使 用 
上 述 方法 来 保护 数据 安全 ， 那 么 ， 内 核 抢占 就 不 需要 你 自己 去 禁止 。 


12.10 ”新 的 每 个 CPU 接口 

2.6 内 核 为 了 方便 创建 和 操作 每 个 CPU 数据 ， 而 引进 了 新 的 操作 接口 ， 称 作 percpu。 该 接口 
归纳 了 前 面 所 述 的 操作 行为 ， 简 化 了 创建 和 操作 每 个 CPU 的 数据 。 

但 前 面 我 们 讨论 的 创建 和 访问 每 个 CPU 的 方法 依然 有 效 ， 不 过 大 型 对 称 多 处 理 器 计算 机 要 
求 对 每 个 CPU 数据 操作 更 简单 ， 功 能 更 强大 ， 正 是 在 这 种 背景 下 ， 新 接口 应 运 而 生 。 

头 文件 <linux/percpu.h> 声明 了 所 有 的 接口 操作 例 程 ， 你 可 以 在 文件 mm/slab.c 和 <asm/ 
percpu.h> 中 找到 它们 的 定义 。 


12.10.1 编译 时 的 每 个 CPU 数据 
在 编译 时 定义 每 个 CPU 变量 易如反掌 : 


DEFINE PER CPU(type, name); 


这 个 语句 为 系统 中 的 每 一 个 处 理 器 都 创建 了 一 个 类 型 为 type， 名 字 为 name 的 变量 实例 ， 如 
果 你 需要 在 别处 声明 变量 ， 以 防范 编译 时 警告 ， 那 么 下 面 的 宏 将 是 你 的 好 帮手 : 


DECLARE PER_CPU(type，Dname) : 


你 可 以 利用 get_cpu_var0 和 put_cpu_var0 例 程 操作 变量 。 调 用 get_cpu_var() 返回 当前 处 理 
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器 上 的 指定 变量 ， 同 时 它 将 禁止 抢占 ; 另 一 方面 put_cpu_var0 将 相应 的 重新 激活 抢占 。 


get_cpu_var (name) ++; /* 增加 该 处 理 器 上 的 name 变量 的 值 */ 
put_cpu_ var (name) ; /* 完成 ; 重新 激活 内 核 抢 占 */ 

你 也 可 以 获得 别 的 处 理 器 上 的 每 个 CPU 数据 : 

per_cpu(name, cpu)++; /* 增加 指定 处 理 器 上 的 name 变量 的 值 */ 


使 用 此 方法 你 需要 格外 小 心 ， 因 为 per_cpu0 函数 既 不 会 禁止 内 核 抢占 ， 也 不 会 提供 任何 形 
式 的 锁 保护 。 如 果 一 些 处 理 器 可 以 接触 到 其 他 处 理 器 的 数据 ， 那 么 你 就 必须 要 给 数据 上 锁 。 注 
意 ， 第 9 章 和 第 10 章 详细 讨论 了 数据 上 锁 问 题 。 

另外 还 有 一 个 需要 提醒 的 问题 : 这 些 编译 时 每 个 CPU 数据 的 例子 并 不 能 在 模块 内 使 用 ， 因 
为 连接 程序 实际 上 将 它们 创建 在 一 个 唯一 的 可 执行 段 中 .data.percpu)。 如 果 你 需要 从 模块 中 访 
问 每 个 CPU 数据 ， 或 者 如 果 你 需要 动态 创建 这 些 数据 ， 那 还 是 有 希望 的 。 


12.10.2 ”运行 时 的 每 个 CPU 数据 


内 核实 现 每 个 CPU 数据 的 动态 分 配方 法 类 似 于 kmalloc()。 该 例 程 为 系统 上 的 每 个 处 理 器 创 
建 所 需 内 存 的 实例 ， 其 原型 在 文件 <linux/percpu.h> 中 : 


void *alloc percpu(type); /* 一 个 宏 */ 
void * alloc percpulsize t size, size t align); 
void free percpul(const void *); 


宏 alloc_percpu0 给 系统 中 的 每 个 处 理 器 分 配 一 个 指定 类 型 对 象 的 实例 。 它 其 实 是 宏 _ alloc_ 
percpu0 的 一 个 封装 ， 这 个 原始 宏 接 收 的 参数 有 两 个 : 一 个 是 要 分 配 的 实际 字 节 数 ， 一 个 是 分 配 
时 要 按 多 少 字 节 对 齐 。 而 封装 后 的 alloc_percpu() 按照 单字 第 对 齐 一 一 按照 给 定 类 型 的 自然 边界 
对 齐 。 这 种 对 齐 方 式 最 为 常用 。 比 如 : 


\ 
struct rabid cheetah = alloc percpul(struct rabid cheetah); 


它 等 价 于 
struct rabid cheetah = _alloc percpul(sizeof (struct rabid cheetah), 
_alignof _ (struct rabid cheetah)); 


_alignof 是 gcc 的 一 个 功能 ， 它 会 返回 指定 类 型 或 lvalue 所 需 的 (或 建议 的 ， 要 知道 有 
些 古怪 的 体系 结构 并 没有 字 节 对 齐 的 要 求 ) 对齐 字 节 数 。 它 的 语义 和 sizeof 一 样 ， 比 如 ， 下 列 程 
序 在 x86 体系 中 将 返回 4 : 


”alignof _ (unsigned long) 


如 果 指 定 一 个 lvalue， 那 么 将 返回 lvalue 的 最 大 对 齐 字 节 数 。 比 如 一 个 结构 中 的 lvalue 相 比 
结构 外 的 lvalue 可 能 有 更 大 的 对 齐 字 节 需求 ， 这 是 结构 本 身 的 对 齐 要 求 的 缘故 。 有 关 对 齐 的 进 一 
步 讨论 我 们 放 在 第 19 章 中 介绍 。 

相应 的 调用 free_ percpu0 将 释放 所 有 处 理 器 上 指定 的 每 个 CPU 数据 。 
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无 论 是 alloc_percpu() 或 是 _ alloc percpu0 都 会 返回 一 个 指针 ， 它 用 来 间接 引用 动态 创建 的 
每 个 CPU 数据 ， 内 核 提 供 了 两 个 宏 来 利用 指针 获取 每 个 CPU 数据 : 

get_cpu_ var (Ptr) ; /* 返回 一 个 void 类 型 指针 ， 该 指针 指向 处 理 器 的 ptr 的 拷贝 */ 

put_cpu_var (ptr); /* 完成 : 重新 激活 内 核 抢 占 */ 

get_cpu_var0 宏 返 回 了 一 个 指向 当前 处 理 器 数据 的 特殊 实例 ， 它 同时 会 禁止 内 核 抢占 ; 而 在 
et_cpu_var() 宏 中 会 重新 激活 内 核 抢占 。 

我 们 来 看 一 个 使 用 这 些 函 数 的 完整 例子 。 当 然 这 个 例子 有 点 无 聊 ， 因 为 通常 你 会 一 次 分 配 够 
内 存 〈 比 如 ， 在 某 些 初始 化 函数 中 )， 就 可 以 在 各 种 地 方 使 用 它 ， 或 再 一 次 释放 比如， 在 一 些 
清理 函数 中 )。 不 过 ， 这 个 例子 可 清楚 地 说 明 如 何 使 用 这 些 函 数 。 


void *percpu ptr; 
unsigned long *foo; 


percpu ptr = alloc percpu(unsigned long); 
if (!ptr) 
/* 内 存 分 配 错误 . . ，*/ 


foo = get_cpu varl(percpu ptr); 
/* 操作 foo ... */ 
put_cpu var{percpu ptr); 


12.11 ”使 用 每 个 CPU 数据 的 原因 


使 用 每 个 CPU 数据 具有 不 少 好 处 。 首 先是 减少 了 数据 锁定 。 因 为 按照 每 个 处 理 器 访问 每 个 
CPU 数据 的 逻辑 ， 你 可 以 不 再 需要 任何 锁 。 记 住 “ 只 有 这 个 处 理 器 能 访问 这 个 数据 ”的 规则 纯 
粹 是 一 个 编程 约定 。 你 需要 确保 本 地 处 理 器 只 会 访问 它 自己 的 唯一 数据 。 系 统 本 身 并 不 存在 任何 
措施 禁止 你 从 事 欺 骗 活 动 。 

第 二 个 好 处 是 使 用 每 个 CPU 数据 可 以 大 大 减少 缓存 失效 。 失 效 发 生 在 处 理 器 试图 使 它们 的 
缓存 保持 同步 时 。 如 果 一 个 处 理 器 操作 某 个 数据 ， 而 该 数据 又 存放 在 其 他 处 理 器 缓存 中 ， 那 么 存 
放 该 数据 的 那个 处 理 器 必须 清理 或 刷新 自己 的 缓存 。 持 续 不 断 的 缓存 失效 称 为 缓存 拌 动 ， 这 样 对 
系统 性 能 影响 颇 大 。 使 用 每 个 CPU 数据 将 使 得 缓存 影响 降 至 最 低 ， 因 为 理想 情况 下 只 会 访问 自 
己 的 数据 。percpu 接口 缓存 一 对 齐 〈cache-align) 所 有 数据 ， 以 便 确 保 在 访问 一 个 处 理 器 的 数据 
时 ， 不 会 将 另 一 个 处 理 器 的 数据 带 入 同一 个 缓存 线 上 。 

综 上 所 述 ， 使 用 每 个 CPU 数据 会 省 去 许多 (或 最 小 化 数据 上 锁 ， 它 唯一 的 安全 要 求 就 
是 要 禁止 内 核 抢占 。 而 这 点 代价 相 比 上 锁 要 小 得 多 ， 而 且 接 口 会 自动 帮 你 完成 这 个 步骤 。 每 个 
CPU 数据 在 中 断 上 下 文 或 进程 上 下 文中 使 用 都 很 安全 。 但 要 注意 ， 不 能 在 访问 每 个 CPU 数据 过 
程 中 睡眠 一 一 否则 ， 你 就 可 能 醒 来 后 已 经 到 了 其 他 处 理 器 上 了 。 

目前 并 不 要 求 必 须 使 用 每 个 CPU 的 新 接口 。 只 要 你 禁止 了 内 核 抢 占 ， 用 手动 方法 〈 利 用 我 
们 原来 讨论 的 数组 ) 就 很 好 ， 但 是 新 接口 在 将 来 更 容易 使 用 ， 而 且 功能 也 会 得 到 长 足 的 优化 。 如 
果 确 实 决定 在 你 的 内 核 中 使 用 每 个 CPU 数据 ， 请 考虑 使 用 新 接口 。 但 我 要 提醒 的 是 一 一 新 接口 
并 不 向 后 兼容 之 前 的 内 核 。 
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12.12 ”分配 函数 的 选择 


在 这 么 多 分 配 函数 和 方法 中 ， 有 时 并 不 能 搞 清 楚 到 底 该 选择 那 种 方式 分 配 一 “但 这 确实 很 重 
要 。 如 果 你 需要 连续 的 物理 页 ， 就 可 以 使 用 某 个 低级 页 分 配器 或 kmalloc0。 这 是 内 核 中 内 存 分 
配 的 常用 方式 ， 也 是 大 多 数 情况 下 你 自己 应 该 使 用 的 内 存 分 配方 式 。 回 忆 一 下 ， 传 递 给 这 些 函 数 
的 两 个 最 常用 的 标志 是 GFP_ATOMIC 和 GFP_KERNEL。GFP_ATOMIC 表示 进行 不 睡眠 的 高 优 
先 级 分 配 ， 这 是 中 断 处 理 程序 和 其 他 不 能 睡眠 的 代码 段 的 需要 。 对 于 可 以 睡眠 的 代码 ，( 比 如 没 
有 持 自 旋 锁 的 进程 上 下 文 代码 ， 则 应 该 使 用 GFP_KERNEL 获取 所 需 的 内 存 。 这 个 标志 表示 如 果 
有 必要 ， 分 配 时 可 以 睡 卢 。 

如 果 你 想 从 高 端 内 存 进行 分 配 ， 就 使 用 alloc_pages0。alloc_pages() 函数 返回 一 个 指向 struct 
page 结构 的 指针 ， 而 不 是 一 个 指向 某 个 逻辑 地 址 的 指针 。 因 为 高 端 内 存 很 可 能 并 没有 被 映射 
因此 ， 访 问 它 的 唯一 方式 就 是 通过 相应 的 struct page 结构 。 为 了 获得 真正 的 指针 ， 应 该 调用 
kmap0， 把 高 端 内 存 映射 到 内 核 的 逻辑 地 址 空间 。 

如 果 你 不 需要 物理 上 连续 的 页 ， 而 仅仅 需要 虚拟 地 址 上 连续 的 页 ， 那 么 就 使 用 vmalloc0 (不 
过 要 记 住 vmalloc0 相对 kmalloc() 来 说 ， 有 一 定 的 性 能 损失 )。vmalloc0 函数 分 配 的 内 存 虚 地 址 
是 连续 的 ， 但 它 本 身 并 不 保证 物理 上 的 连续 。 这 与 用 户 空间 的 分 配 非常 类 似 ， 它 也 是 把 物理 内 存 
块 映射 到 连续 的 逻辑 地 址 空间 上 。 

如 果 你 要 创建 和 撤销 很 多 大 的 数据 结构 ， 那 么 考虑 建立 slab 高 速 缓存 。slab 层 会 给 每 个 处 理 
器 维持 一 个 对 象 高 速 缓存 〈 空 闲 链表 )， 这 种 高 速 缓存 会 极 大 地 提高 对 象 分 配 和 回收 的 性 能 。slab 
层 不 是 频繁 地 分 配 和 释放 内 存 ， 而 是 为 你 把 事先 分 配 好 的 对 象 存放 到 高 速 缓存 中 。 当 你 需要 一 块 
新 的 内 存 来 存放 数据 结构 时 ，slab 层 一 般 无 须 另外 去 分 配 内 存 ， 而 只 需要 从 高 速 缓存 中 得 到 一 个 
对 象 就 可 以 了 。 


12.13 小 结 


本 章 中 ， 我 们 学 习 了 Linux 内 核 如 何 管理 内 存 。 我 们 首先 看 到 了 内 存 空 间 的 各 种 不 同 的 描述 
单位 ， 包 括 字 节 、 页 面 和 区 《在 第 15 章 的 进程 地 址 空间 中 可 看 到 4 种 不 同 层次 的 内 存单 位 )。 我 
们 接着 讨论 了 各 种 内 存 分 配 机 制 ， 其 中 包括 页 分 配器 和 slab 分 配器 。 在 内 核 中 分 配 内 存 并 非 总 
是 轻而易举 ， 因 为 你 必须 小 心地 确保 分 配 过 程 遵 从 内 核 特 定 的 状态 约束 。 比 如 分 配 过 程 中 不 得 堵 
塞 ， 或 者 访问 文件 系统 等 约束 。 为 此 我 们 讨论 了 gfp 标识 以 及 使 用 每 个 标识 的 针对 场景 。 分 配 内 
存 相对 复杂 是 内 核 开发 和 用 户 程 序 开发 的 最 大 区 别 之 一 ， 本 章 使 用 大 量 篇 幅 描述 内 存 分 配 的 各 种 
不 同 接口 一 一 通过 这 些 不 同调 用 接口 ， 你 应 该 能 感觉 到 内 核 中 分 配 内 存 为 什么 更 复杂 的 原因 。 在 
本 章 基 础 上 ， 在 第 13 章 我 们 讨论 虚拟 文件 系统 VFS) 一 一 负责 管理 文件 系统 且 为 用 户 空间 程 
序 提供 一 致 性 接口 的 内 核子 系统 。 我 们 继续 深入 ! 





第 43 章 
虚拟 文件 系统 


虚拟 文件 系统 《有 时 也 称 作 虚拟 文件 交换 ， 更 常见 的 是 简称 VFS ) 作为 内 核子 系统 ， 为 用 
户 空间 程序 提供 了 文件 和 文件 系统 相关 的 接口 。 系 统 中 所 有 文件 系统 不 但 依赖 VFS 共存 ， 而 且 
也 依靠 VFS 系统 协同 工作 。 通 过 虚拟 文件 系统 ， 程 序 可 以 利用 标准 的 Uinx 系统 调用 对 不 同 的 文 
件 系统 ， 甚 至 不 同 介质 上 的 文件 系统 进行 读 写 操作 ， 如 图 13-1 所 示 。 


ext3 文 件 格式 的 硬盘 


= 


ext2 文 件 格式 的 磁盘 


图 13-1 VFS 执行 的 动作 : 使 用 cp(1) 命令 从 ext3 文件 系统 格式 的 硬盘 拷贝 数据 到 ext2 文件 系统 
格式 的 可 移动 磁盘 上 。 两 种 不 同 的 文件 系统 ， 两 种 不 同 的 介质 ， 连 接 到 同一 个 VFS 上 


13.1 通用 文件 系统 接口 


VFS 使 得 用 户 可 以 直接 使 用 open0、read0 和 write0 这 样 的 系统 调用 而 无 须 考 虑 具体 文件 系统 
和 实际 物理 介质 。 现 在 听 起 来 这 并 没什么 新 奇 的 〈 我 们 早 就 认为 这 是 理所当然 的 )， 但 是 ， 使 得 这 
些 通用 的 系统 调用 可 以 跨越 各 种 文件 系统 和 不 同 介质 执行 ， 绝 非 是 微不足道 的 成 绩 。 更 了 不 起 的 
是 ， 系 统 调用 可 以 在 这 些 不 同 的 文件 系统 和 介质 之 间 执 行 一 一 我 们 可 以 使 用 标准 的 系统 调用 从 一 
个 文件 系统 拷贝 或 移动 数据 到 另 一 个 文件 系统 。 老 式 的 操作 系统 (比如 DOS) 是 无 力 完 成 上 述 
工作 的 ， 任 何 对 非 本 地 文件 系统 的 访问 都 必须 依靠 特殊 工具 才能 完成 。 正 是 由 于 现代 操作 系统 引 
入 抽象 层 ， 比 如 Linux， 通 过 虚拟 接口 访问 文件 系统 ， 才 使 得 这 种 协作 性 和 泛 型 存 取 成 为 可 能 。 

新 的 文件 系统 和 新 类 型 的 存储 介质 都 能 找到 进入 Linux 之 路 ， 程 序 无 需 重 写 ， 甚 至 无 须 重新 
编译 。 在 本 章 中 ， 我 们 将 讨论 VFS， 它 把 各 种 不 同 的 文件 系统 抽象 后 采用 统一 的 方式 进行 操作 。 
在 第 14 章 中 ， 我 们 将 讨论 块 IO 层 ， 它 支持 各 种 各 样 的 存储 设备 一 一 从 CD 到 蓝光 光盘 ， 从 硬 
件 设备 再 到 压缩 办 存 。VFS 与 块 VO 相 结合 ， 提 供 抽象 、 接 口 以 及 交融 ， 使 得 用 户 空间 的 程序 调 
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用 统一 的 系统 调用 访问 各 种 文件 ， 不 管 文件 系统 是 什么 ， 也 不 管 文件 系统 位 于 何 种 介质 ， 采 用 的 
命名 策略 是 统一 的 


13.2 文件 系统 抽象 层 


之 所 以 可 以 使 用 这 种 通用 接口 对 所 有 类 型 的 文件 系统 进行 操作 ， 是 因为 内 核 在 它 的 底层 文件 
系统 接口 上 建立 了 一 个 抽象 层 。 该 抽象 层 使 Linux 能 够 支持 各 种 文件 系统 ， 即 便 是 它们 在 功能 和 
行为 上 存在 很 大 差别 。 为 了 支持 多 文件 系统 ，VFS 提供 了 一 个 通用 文件 系统 模型 ， 该 模型 圳 括 了 
任何 文件 系统 的 常用 功能 集 和 行为 。 当 然 ， 该 模型 偏重 于 Unix 风格 的 文件 系统 〈 我 们 将 在 后 面 
的 小 节 看 到 Unix 风格 的 文件 系统 的 构成 )。 但 即使 这 样 ，Linux 仍然 可 以 支持 很 多 种 差异 很 大 的 
文件 系统 ， 从 DOS 系统 的 FAT 到 Windows 系统 的 NTFS， 再 到 各 种 Unix 风格 文件 系统 和 Linux 
特有 的 文件 系统 。 

VFS 抽象 层 之 所 以 能 衔接 各 种 各 样 的 文件 系统 ， 是 因为 它 定义 了 所 有 文件 系统 都 支持 的 、 
基本 的 、 概 念 上 的 接口 和 数据 结构 。 同 时 实际 文件 系统 也 将 自身 的 诸如 “如 何 打 开 文 件 ”,，“ 目 录 
是 什么 ”等 概念 在 形式 上 与 VFS 的 定义 保持 一 致 。 因 为 实际 文件 系统 的 代码 在 统一 的 接口 和 数 
据 结构 下 隐藏 了 具体 的 实现 细节 ， 所 以 在 VFS 层 和 内 核 的 其 他 部 分 看 来 ， 所 有 文件 系统 都 是 相 
同 的 ， 它 们 都 支持 像 文件 和 目录 这 样 的 概念 ， 同 时 也 支持 像 创 建文 件 和 删除 文件 这 样 的 操作 。 

内 核 通过 抽象 层 能 够 方便 、 简 单 地 支持 各 种 类 型 的 文件 系统 。 实 际 文件 系统 通过 编程 提供 
VFS 所 期 望 的 抽象 接口 和 数据 结构 ， 这 样 ， 内 核 就 可 以 剖 不 费力 地 和 任何 文件 系统 协同 工作 ， 并 
且 这 样 提供 给 用 户 空 间 的 接口 ， 也 可 以 和 任何 文件 系统 无 锋 地 连接 在 一 起 ， 完 成 实际 工作 。 

其 实在 内 核 中 ， 除 了 文件 系统 本 身 外 ， 其 他 部 分 并 不 需要 了 解 文件 系统 的 内 部 细节 。 比 如 一 
个 简单 的 用 户 空间 程序 执行 如 下 的 操作 : 


ret = writel(fd, buf, len); 


该 系统 调用 将 buf 指针 指向 的 长 度 为 len 字 节 的 数据 写 人 文件 描述 符 得 对 应 的 文件 的 当前 
位 置 。 这 个 系统 调用 首先 被 一 个 通用 系统 调用 sys_write0 处 理 ，sys_write0 函数 要 找到 人生 所 在 
的 文件 系统 实际 给 出 的 是 哪个 写 操作 ， 然 后 再 执行 该 操作 。 实 际 文件 系统 的 写 方法 是 文件 系统 实 
现 的 一 部 分 ， 数 据 最 终 通过 该 操作 写 入 介质 或 执行 这 个 文件 系统 想 要 完成 的 写 动 作 )。 图 13-2 
描述 了 从 用 户 空 间 的 write0 调用 到 数据 被 写 入 磁盘 介质 的 整个 流程 。 一 方面 ， 系 统 调用 是 通用 
VES 接口 ， 提 供给 用 户 空 间 的 前 端 ; 另 一 方面 ， 系 统 调用 是 具体 文件 系统 的 后 端 ， 处 理 实 现 细 
节 。 接 下 来 的 小 节 中 我 们 会 具体 看 到 VFS 抽象 模型 以 及 它 提供 的 接口 。 


用 户 空 间 VFS (虚拟 文件 系统 ) 本 文件 系统 





物理 介质 
图 13-2 ”write( 调用 将 来 自用 户 空间 的 数据 流 ， 首 先 通过 VFS 的 通用 系统 调用 ， 
其 次 通过 文件 系统 的 特殊 写法 ， 最 后 写 人 物理 介质 中 
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13.3 Unix 文件 系统 
Unix 使 用 了 四 种 和 文件 系统 相关 的 传统 抽象 概念 : 文件 、 目 录 项 、 索 引 节点 和 安装 点 


(mount point ) 。 

从 本 质 上 讲 文件 系统 是 特殊 的 数据 分 层 存 储 结构 ， 它 包含 文件 、 目 录 和 相关 的 控制 信息 。 文 
件 系统 的 通用 操作 包含 创建 、 删 除 和 安装 等 。 在 Unix 中 ， 文 件 系 统 被 安装 在 一 个 特定 的 安装 点 
上 ， 该 安装 点 在 全 局 层次 结构 2 中 被 称 作 命名 空间 ， 所 有 的 已 安装 文件 系统 都 作为 根 文件 系统 树 
的 枝叶 出 现在 系统 中 。 与 这 种 单一 、 统 一 的 树 形 成 鲜明 对 照 的 就 是 DOS 和 Windows 的 表现 ， 它 
们 将 文件 的 命名 空间 分 类 为 驱动 字母 ， 例 如 C:。 这 种 将 命名 空间 划分 为 设备 和 分 区 的 做 法 ， 相 
当 于 把 硬件 细节 “泄露 ”给 文件 系统 抽象 层 。 对 用 户 而 言 ， 如 此 的 描述 有 点 随意 ， 甚 至 产生 混 
请， 这 是 Linux 统一 命名 空间 所 不 悄 一 顾 的 。 

文件 其 实 可 以 做 一 个 有 序 字 节 串 ， 字 节 串 中 第 一 个 字 节 是 文件 的 头 ， 最 后 一 个 字 节 是 文件 的 
尾 。 每 一 个 文件 为 了 便于 系统 和 用 户 识别 ， 都 被 分 配 了 一 个 便于 理解 的 名 字 。 典 型 的 文件 操作 有 
读 、 写 、 创 建 和 删除 等 。Unix 文件 的 概念 与 面向 记录 的 文件 系统 (如 OpenVMS 的 File-11) 形 
成 鲜明 的 对 照 。 面 向 记录 的 文件 系统 提供 更 丰富 、 更 结构 化 的 表示 ， 而 简单 的 面向 字 节 流 抽象 的 
Unix 文件 则 以 简单 性 和 相当 的 灵活 性 为 代价 。 

文件 通过 目录 组 织 起 来 。 文 件 目录 好 比 一 个 文件 夹 ， 用 来 容纳 相关 文件 。 因 为 目录 也 可 以 包 
含 其 他 目录 ， 即 子 目 录 ， 所 以 目录 可 以 层 层 嵌 套 ， 形 成 文件 路 径 。 路 径 中 的 每 一 部 分 都 被 称 作 目 
录 条 目 。“/home/wolfman/butter” 是 文件 路 径 的 一 个 例子 一 根 目 录 /， 目 录 home，wolfman 和 
文件 butter 都 是 目录 条 目 ， 它 们 统称 为 目录 项 。 在 Unix 中 ， 目 录 属 于 普通 文件 ， 它 列 出 包含 在 
其 中 的 所 有 文件 。 由 于 VFS 把 目录 当 作文 件 对 待 ， 所 以 可 以 对 目录 执行 和 文件 相同 的 操作 。 

Unix 系统 将 文件 的 相关 信息 和 文件 本 身 这 两 个 概念 加 以 区 分 ， 例 如 访问 控制 权限 、 大 小 、 
拥有 者 、 创 建 时 间 等 信息 。 文 件 相 关 信息 ， 有 时 被 称 作 文件 的 元 数据 (也 就 是 说 ， 文 件 的 相关 
数据 )， 被 存储 在 一 个 单独 的 数据 结构 中 ， 该 结构 被 称 为 索引 节点 〈inode)， 它 其 实 是 index node 
的 缩写 ， 不 过 近来 术语 “inode” 使 用 得 更 为 普遍 一 些 。 

所 有 这 些 信 息 都 和 文件 系统 的 控制 信息 密切 相关 ， 文 件 系统 的 控制 信息 存储 在 超级 块 中 ， 超 
级 块 是 一 种 包含 文件 系统 信息 的 数据 结构 。 有 时 ， 把 这 些 收 集 起 来 的 信息 称 为 文件 系统 数据 元 ， 
它 集 单独 文件 信息 和 文件 系统 的 信息 于 一 身 。 

一 直 以 来 ，Unix 文件 系统 在 它们 物理 磁盘 布局 中 也 是 按照 上 述 概念 实现 的 。 比 如 说 在 磁盘 
上 ， 文 件 〈 目 录 也 属于 文件 ) 信息 按照 索引 节点 形式 存储 在 单独 的 块 中 ; 控制 信息 被 集中 存储 
在 磁盘 的 超级 块 中 ， 等 等 。Unix 中 文件 的 概念 从 物理 上 被 映射 到 存储 介质 。Linux 的 VFS 的 设 
计 目 标 就 是 要 保证 能 与 支持 和 实现 了 这 些 概念 的 文件 系统 协同 工作 。 像 如 FAT 或 NTFS 这 样 的 
非 Unix 风格 的 文件 系统 ， 虽 然 也 可 以 在 Linux 上 工作 ， 但 是 它们 必须 经 过 封装 ， 提 供 一 个 符合 
这 些 概 念 的 界面 。 比 如 ， 即 使 一 个 文件 系统 不 支持 索引 节点 ， 它 也 必须 在 内 存 中 装配 索引 节点 结 
构 体 ， 就 像 它 本 身 包含 索引 节点 一 样 。 再 比如 ， 如 果 一 个 文件 系统 将 目录 看 做 一 种 特殊 对 象 ， 那 


- 


日 近来 ，Linux 已 经 将 这 种 层次 化 概念 引入 了 单个 进程 中 ， 每 个 进程 都 指定 一 个 唯一 的 命名 空间 。 因 为 每 个 进程 
都 会 继承 父 进程 的 命名 空间 除非 是 特别 声明 的 情况 )， 所 以 所 有 进程 往往 都 只 有 一 个 全 局 命名 空间 。 
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么 要 想 使 用 VFS， 就 必须 将 目录 重新 表示 为 文件 形式 。 通常 ， 这 种 转换 需要 在 使 用 现场 (on the 
fly) 引入 一 些 特 殊 处 理 ， 使 得 非 Unix 文件 系统 能 够 兼容 Unix 文件 系统 的 使 用 规则 并 满足 VFS 
的 需求 。 这 种 文件 系统 当然 仍 能 工作 ， 但 是 其 带 来 的 开销 则 不 可 思议 (开销 太 大 了 )。 


13.4 VFS 对 象 及 其 数据 结构 


VEFS 其 实 采用 的 是 面向 对 象 9 的 设计 思路 ， 使 用 一 组 数据 结构 来 代表 通用 文件 对 象 。 这 些 数 
据 结构 类 似 于 对 象 。 因 为 内 核 纯 粹 使 用 C 代码 实现 ， 没 有 直接 利用 面向 对 象 的 语言 ， 所 以 内 核 
中 的 数据 结构 都 使 用 C 语言 的 结构 体 实现 ， 而 这 些 结构 体 包含 数据 的 同时 也 包含 操作 这 些 数 据 
的 函数 指针 ， 其 中 的 操作 函数 由 具体 文件 系统 实现 。 

VFS 中 有 四 个 主要 的 对 象 类 型 ， 它 们 分 别 是 : 

。 超 级 块 对 象 ， 它 代表 一 个 具体 的 已 安装 文件 系统 。 

“索引 节点 对 象 ， 它 代表 一 个 具体 文件 。 

。 目 录 项 对 象 ， 它 代表 一 个 目录 项 ， 是 路 径 的 一 个 组 成 部 分 。 

。 文 件 对 象 ， 它 代表 由 进程 打开 的 文件 。 

注意 ， 因 为 VFS 将 目录 作为 一 个 文件 来 处 理 ， 所 以 不 存在 目录 对 象 。 回 忆 本 章 前 面 所 提 和 到 
的 目录 项 代表 的 是 路 径 中 的 一 个 组 成 部 分 ， 它 可 能 包括 一 个 普通 文件 。 换 名 话说， 目录 项 不 同 于 
目录 ,但 目录 却 是 另 一 种 形式 的 文件 ， 明 白 了 吗 ? 

每 个 主要 对 象 中 都 包含 一 个 操作 对 象 ， 这 些 操作 对 象 描述 了 内 核 针 对 主要 对 象 可 以 使 用 的 
方法 : . 

“。 super_operations 对 象 ， 其 中 包括 内 核 针 对 特定 文件 系统 所 能 调用 的 方法 ， 比 如 write_ 

inode() 和 sync_fs() 等 方法 。 

。inode_operations 对 象 ， 其 中 包括 内 核 针对 特定 文件 所 能 调用 的 方法 ， 比 如 create() 和 linkO 

等 方法 。 

" dentry_operations 对 象 ， 其 中 包括 内 核 针 对 特定 目录 所 能 调用 的 方法 ， 比 如 d_compareO 和 

d_delete() 等 方法 。 

。file_operations 对 象 ， 其 中 包括 进程 针对 已 打开 文件 所 能 调用 的 方法 ， 比 如 read0 和 write0 

等 方法 。 

操作 对 象 作为 一 个 结构 体 指针 来 实现 ， 此 结构 体 中 包含 指向 操作 其 父 对象 的 函数 指针 。 对 于 
其 中 许多 方法 来 说 ， 可 以 继承 使 用 VFS 提供 的 通用 国 数 ， 如 果 通 用 函数 提供 的 基本 功能 无 法 满 
足 需 要 ， 那 么 就 必须 使 用 实际 文件 系统 的 独 有 方法 填充 这 些 函 数 指 针 ， 使 其 指向 文件 系统 实例 。 

再 次 提醒 ， 我 们 这 里 所 说 的 对 象 就 是 指 结构 体 ， 而 不 是 像 C++ 或 Java 那样 的 真正 的 对 象 数 
据 类 类 型 。 但 是 这 些 结 构 体 的 确 代 表 的 是 一 个 对 象 ， 它 含有 相关 的 数据 和 对 这 些 数据 的 操作 ， 所 
以 可 以 说 它们 就 是 对 象 。 


昌 人 们 时 常 忽略 ， 甚 至 会 否认 ， 但 是 在 内 核 中 确实 存在 很 多 利用 面向 对 象 思想 编程 的 例子 。 虽 然 内 核 开发 者 可 
能 有 意 避 免 Ct+ 和 其 他 面向 对 象 语言 ， 但 是 面向 对 象 的 思想 仍然 经 常 被 借鉴 一 一 虽然 C 语言 缺乏 面向 对 象 的 
机 制 。VFS 就 是 一 个 利用 C 代码 来 有 效 和 简洁 地 实现 OOP 的 例子 。 
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VFS 使 用 了 大 量 结构 体 对 象 ， 它 所 包括 的 对 象 远 远 多 于 上 面 提 到 的 这 几 种 主要 对 象 。 比 如 
每 个 注册 的 文件 系统 都 由 file_system_type 结构 体 来 表示 ， 它 描述 了 文件 系统 及 其 性 能 : 另外 ， 
每 一 个 安装 点 也 都 用 vfsmount 结构 体 表 示 ， 它 包含 的 是 安装 点 的 相关 信息 ， 如 位 置 和 安装 标 

在 本 章 的 最 后 还 要 介绍 两 个 与 进程 相关 的 结构 体 ， 它 们 描述 了 文件 系统 以 及 和 进程 相关 的 文 
件 ， 分 别 是 f8_struct 结构 体 和 file 结构 体 。 

13.5 节 将 讨论 这 些 对 象 以 及 它们 在 VFS 晨 的 实现 中 扮演 的 角色 。 


13.5 超级 块 对 象 


各 种 文件 系统 都 必须 实现 超级 块 对 象 ， 该 对 象 用 于 存储 特定 文件 系统 的 信息 ， 通 常 对 应 于 存 
放 在 磁盘 特定 扁 区 中 的 文件 系统 超级 块 或 文件 系统 控制 块 ( 所 以 称 为 超级 块 对 象 )。 对 于 并 非 基 
于 磁盘 的 文件 系统 (如 基于 内 存 的 文件 系统 ， 比 如 sysfs )， 它 们 会 在 使 用 现场 创建 超级 块 并 将 其 
保存 到 内 存 中 。 

超级 块 对 象 由 super_block 结构 体 表示 ， 定 义 在 文件 <linux/fs.h> 中 ， 下 面 给 出 它 的 结构 和 各 
个 域 的 描述 : 


struct super block { 


struct list head 
dev t 
unsigned long 


unsigned char 

unsigned char 

unsigned long long 
struct file system type 
struct super operations 
struct dquot operations 
struct quotactl ops 
struct export_operations 
unsigned long 

unsigned long 

struct dentry 

struct rw_ semaphore 
struct semaphore 

int 

int 

atomic t 

void 

struct xattr handler 
struct list head 

struct list head 

struct list head 

struct list head 

struct hlist head 
struct list head 

struct list head 

int 

struct block device 


s_list; 
s_dev; 
s_blocksize; 


s_blocksize bits; 
s_dirt; 

s maxbytes; 
s_type; 

Ss_op; 

*dq_op; 
*s_qcop; 

*Ss_ export op; 
s flags; 

s magic; 
*Ss_root; 
s_umount; 

s_ lock; 
s_count; 

s need sync; 
s_active; 
*s_Ssecurity; 
**S_ xattr; 


/* 指向 所 有 超级 块 的 链表 */ 
/* 设备 标识 符 */ 
/* 以 字 节 为 单位 的 块 大 小 */ 


/* 以 位 为 单位 的 块 大 小 */ 
/* 修改 (上 脏 ) 标志 */ 

/* 文件 大 小 上 限 */ 

/* 文件 系统 类 型 */ 

/* 超级 块 方法 */ 

/* 磁盘 限额 方法 */ 

/* 限额 控制 方法 */ 

/* 导出 方法 */ 

/* 挂 载 标 志 */ 

/* 文件 系统 的 幻 数 */ 

/* 目录 挂 载 点 */ 

/* 印 载 信号 量 */ 

/* 超级 块 信号 量 */ 

/* 超级 块 引用 计数 */ 

/* 尚未 同步 标志 */ 

/* 活动 引用 计数 */ 

/* 安全 模块 */ 

/* 扩 晨 的 属性 操作 */ 

/* inodes 链表 */ 

/* 脏 数据 链表 */ 

/* 回 写 链表 */ 

/* 更 多 回 写 的 链表 */ 

/* 匿名 目录 项 */ 

/* 被 分 配 文件 链表 */ 

/* 未 被 使 用 目录 项 链表 */ 
/* 链表 中 目录 项 的 数目 */ 
/* 相关 的 块 设备 */ 
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struct mtd info *s_mtd; /* 存储 磁盘 信息 */ 
struct list head s_ instances; /* 该 类 型 文件 系统 */ 
struct quota info s_ daquot; /* 限额 相关 选项 */ 
int s_frozen; /* frozen 标志 位 */ 
wait queue head t s_ wait unfrozen; /* 冻结 的 等 待 队 列 */ 
char s_iqd[32]; /* 文本 名 字 */ 
void *s fs info; /* 文件 系统 特殊 信息 */ 
fmode t s_mode; /* 安装 权限 */ 
struct semaphore Ss vfs rename sem; /* 重 命名 信号 量 */ 
ua32 s time gran; /* 时 间 改 粒度 */ 
char *s_subtype; /* 子 类 型 名 称 */ 

忆 放 5 *s_options; /* 已 存 安装 选项 */ 


}; 


创建 、 管 理 和 撤销 超级 块 对 象 的 代码 位 于 文件 fs/super.c 中 。 超 级 块 对 象 通过 alloc_super() 
函数 创建 并 初始 化 。 在 文件 系统 安装 时 ， 文 件 系统 会 调用 该 国 数 以 便 从 磁盘 读 取 文 件 系 统 超级 
块 ， 并 且 将 其 信息 填充 到 内 存 中 的 超级 块 对 象 中 。 


13.6 超级 块 操作 


超级 块 对 象 中 最 重要 的 一 个 域 是 s_op， 它 指向 超级 块 的 操作 函数 表 。 超 级 块 操作 函数 表 由 
super_operations 结构 体 表示 ， 定 义 在 文件 <linux/fs.h> 中 ， 其 形式 如 下 : 


struct super operations { 

struct inode *({*alloc inode)(struct super block *sb); 

void {(*destroy inode)(struct inode *); 

void {(*dirty inode) (struct inode *); 

int (*write inode) (struct inode *, int); 

void (*drop inode) (struct inode *); 

void {(*delete inode) {struct inode *); 

void {*put super) (struct super block *); 

void {(*write super) {struct super block *); 

int (*sync fs)(struct super block *sb, int wait); 

int {(*freeze fs) {struct super block *); 

int {(*unfreeze fs) (struct super block *); 

int (*statfs) {struct dentry *, struct kstatfs *); 

int (*remount fs) (struct super block *, int *, char *); 

void {*clear inode) (struct inode *); 

void (*umount begin) (struct super block *); 

int (*show options)(struct seq file *, struct vfsmount *); 

int (*show stats)(struct seq file *, struct vfsmount *); 

ssize t (*quota read)(struct super block *, int, char *, size t, loff t); 

ssize t (*quota write)(struct super block *, int, const char *, size t, loff t+); 

int (*bdev try to free page)(struct super block*, struct page*, gfp t+); 
}; 


该 结构 体 中 的 每 一 项 都 是 一 个 指向 超级 块 操 作 函 数 的 指针 ， 超 级 块 操作 函数 执行 文件 系统 和 
索引 节点 的 低层 操作 。 
当 文 件 系统 需要 对 其 超级 块 执行 操作 时 ， 首 先 要 在 超级 块 对 象 中 寻找 需要 的 操作 方法 。 比 
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如 ， 如 果 一 个 文件 系统 要 写 自 己 的 超级 块 ， 需 要 调用 : 

sb->s_op->write super (Sb) ; 

在 这 个 调用 中 ，sb 是 指向 文件 系统 超级 块 的 指针 ， 沿 着 该 指针 进入 超级 块 操 作 函 数 表 s_op， 
并 从 表 中 取得 希望 得 到 的 write_super(0 函数 ， 该 函数 执行 号 人 超级 块 的 实际 操作 。 注 意 ， 尽 管 
write_super() 方法 来 自 超级 块 ， 但 是 在 调用 时 ， 还 是 要 把 超级 块 作 为 参数 传递 给 它 ， 这 是 因为 C 
语言 中 缺少 对 面向 对 象 的 支持 ， 而 在 C++ 中 ， 使 用 如 下 的 调用 就 足够 了 : 

sb.write super(); 

由 于 在 C 语 言 中 无 法 直接 得 到 操作 函数 的 父 对 象 ， 所 以 必须 将 父 对 象 以 参数 形式 传 给 操作 函数 。 

下 面 给 出 super_operation 中 ， 超 级 块 操 作 函 数 的 用 法 。 


e struct inode *alloc inode(struct super block *sb) 


在 给 定 的 超级 块 下 创建 和 初始 化 一 个 新 的 索引 节点 对 象 。 


es。 void destroy_inode(struct inode *inode) 


用 于 释放 给 定 的 索引 节点 。 

e void dirty inode(struct inode *inode) 

VFS 在 索引 节点 脏 〔 被 修改 ) 时 会 调用 此 函数 。 日 志文 件 系统 (如 ext3 和 ext4) 执行 该 函 
数 进行 日 志 更 新 。 

e void write inode(struct inode *inode,int wait) 

用 于 将 给 定 的 索引 节点 写 人 磁盘 。wait 参数 指明 写 操 作 是 否 需要 同步 。 

。 void drop inode(struct inode *inode) 


在 最 后 一 个 指向 索引 节点 的 引用 被 释放 后 ，VFS 会 调用 该 函数 。VFS 只 需要 简单 地 删除 这 
个 索引 节点 后 ， 普 通 Unix 文件 系统 就 不 会 定义 这 个 函数 了 。 


。 void delete inode(struct inode *inode) 
用 于 从 磁盘 上 删除 给 定 的 索引 节点 。 

® void put_ super(struct super block *sb) 

在 仓 载 文件 系统 时 由 VFS 调用 ， 用 来 释放 超级 块 。 调 用 者 必须 一 直 持 有 s_lock 锁 。 
。void write_super (struct super block *sb) 


用 给 定 的 超级 块 更 新 磁盘 上 的 超级 块 。VFS 通过 该 函数 对 内 存 中 的 超级 块 和 磁盘 中 的 超级 
块 进行 同步 。 调 用 者 必须 一 直 持 有 s_lock 锁 。 


® int sync fs{(struct super block *sb, int wait) 


使 文件 系统 的 数据 元 与 磁盘 上 的 文件 系统 同步 。wait 参数 指定 操作 是 否 同步 。 
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ea void write super lockfs(struct super block *sb) 


首先 禁止 对 文件 系统 做 改变 ， 再 使 用 给 定 的 超级 块 更 新 磁盘 上 的 超级 块 。 目 前 LVM( 逻辑 卷 
标 管 理 ) 会 调用 该 函数 。 
e void unlockfs(struct super block *sb) 


对 文件 系统 解除 锁定 ， 它 是 write_super_lockfs0 的 逆 操 作 。 


e int statfs(struct super _ block *sb,struct statfs *statfs) 


VFS 通过 调用 该 函数 获取 文件 系统 状态 。 指 定 文件 系统 相关 的 统计 信息 将 放置 在 statfs 中 。 


e int remount fsl(struct super block *sb,int *flags,char *data) 


当 指 定 新 的 安装 选项 重新 安装 文件 系统 时 ，VFS 会 调用 该 函数 。 调 用 者 必须 一 直 持 有 s_ 
lock 锁 。 


e void clear inode(struct inode *inode) 


VFS 调用 该 函数 释放 索引 节点 ， 并 清空 包含 相关 数据 的 所 有 页 面 。 


e void umount begin(struct super block *sb) 


VFS 调用 该 函数 中 断 安装 操作 。 该 函数 被 网 络 文件 系统 使 用 ， 如 NFS。 

所 有 以 上 函数 都 是 由 VFS 在 进程 上 下 文中 调用 。 除 了 dirty_inode(), 其 他 函数 在 必要 时 都 可 
以 阻塞 。 

这 其 中 的 一 些 函 数 是 可 选 的 。 在 超级 块 操作 表 中 ， 文 件 系统 可 以 将 不 需要 的 函数 指针 设置 成 
NULL。 如 果 VFS 发 现 操作 函数 指针 是 NULL， 那 它 要 么 就 会 调用 通用 函数 执行 相应 操作 ， 要 么 
什么 也 不 做 ， 如 何 选择 取决 于 具体 操作 。 


13.7 索引 节点 对 象 


索引 节点 对 象 包含 了 内 核 在 操作 文件 或 目录 时 需要 的 全 部 信息 。 对 于 Unix 风格 的 文件 系统 
来 说 ， 这 些 信息 可 以 从 磁盘 索引 布点 直接 读 入 。 如 果 一 个 文件 系统 没有 索引 节点 ， 那 么 ， 不 管 这 
些 相 关 信息 在 磁盘 上 是 怎么 存放 的 ， 文 件 系 统 都 必须 从 中 提取 这 些 信息 。 没 有 索引 节点 的 文件 系 
统 通常 将 文件 的 描述 信息 作为 文件 的 一 部 分 来 存放 。 这 些 文件 系统 与 Unix 风格 的 文件 系统 不 同 ， 
没有 将 数据 与 控制 信息 分 开 存放 。 有 些 现代 文件 系统 使 用 数据 库 来 存储 文件 的 数据 。 不 管 哪 种 情 
况 、 采 用 哪 种 方式 ， 索 引 节 点 对 象 必 须 在 内 存 中 创建 ， 以 便于 文件 系统 使 用 。 

索引 节点 对 象 由 inode 结构 体 表示 ， 它 定义 在 文件 <linux/fs.h> 中 ， 下 面 给 出 它 的 结构 体 和 
各 项 的 描述 - 


struct inode { 
struct hlist node i_hash; /* 散 列表 */ 


‘struct list head i list; /* 索引 节点 链表 */ 
struct list head i sb list; /* 超级 块 链表 */ 
struct list head i dentry; /* 目录 项 链表 */ 


unsigned long i_ino; /* 节点 号 */ 
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atomic t 
unsigned int 


uid 七 
gid 七 
kdev 七 
u64 
loff 七 


seqcount t 


struct 
struct 
struct 


timespec 
timespec 
timespec 


unsigned int 
blkcnt 七 
unsigned short 


umode t 


spinlock t 


struct 
struct 
struct 
struct 
struct 
struct 
struct 
struct 
struct 
struct 


union { 


rw_ semaphore 
semaphore 

inode operations 
file operations 
super_ block 
file_lock 
address_space 
address_space 
dquot 

list_ head 


struct pipe inode_ info 
struct block device 
struct cdev 


}; 


unsigned long 


struct 
struct 
struct 


dnotify_struct 
list _ head 
mutex 


unsigned long 
unsigned long 
unsigned int 
atomic t 


void 
void 


}; 


一 个 索引 节点 代表 文件 系统 中 《〈 但 是 索引 节点 仅 当 文 件 被 访问 时 ， 才 在 内 存 中 创建 ) 的 一 个 
文件 ， 它 也 可 以 是 设备 或 管道 这 样 的 特殊 文件 。 因 此 索引 节点 结构 体 中 有 一 些 和 特殊 文件 相关 的 





i count; 

i nlink; 

i uid; 

i gid; 

i rdev; 

i version; 
i_size; 
i_size seqcount; 
i atime; 

i mtime; 
i_ctime; 

i blkbits; 

i blocks; 

i bytes; 
i_mode; 

i lock; 

i alloc sem; 
i_sem; 
*#i_Op; 

*i fop; 

*i_ sb; 

*i flock; 
*i_mapping; 
i_data; 
*_dquot [MAXQUOTAS] ; 
i devices; 


*i_pipe; 
*i_bdev; 
*i_cCdev; 


i_dnotify mask; 
*i_Anotify; 
inotify watches; 
inotify mutex; 
i_state; 

dirtied when; 
i_flags; 

i writecount; 
*i_security; 

*i private; 


/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
A 
/* 
/* 
/* 
/> 
/* 
/* 
/* 
/* 

* 
/* 
/* 
/* 
/* 


/* 
/* 
/* 


/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 


引用 计数 */ 

硬 链接 数 */ 

使 用 者 的 id */ 
使 用 组 的 ia */ 
实际 设备 标识 符 */ 
版 本 号 */ 

以 字 节 为 单位 的 文件 大 小 */ 
对 i_size 进行 串 行 计数 */ 
最 后 访问 时 间 */ 

最 后 修改 时 间 */ 

最 后 改变 时 间 */ 

以 位 为 单位 的 块 大 小 */ 
文件 的 块 数 */ 

使 用 的 字 节 数 */ 

访问 权限 */ 
自 旋 锁 */ 

伐 入 二 _sem 内 部 */ 
索引 节点 信号 量 */ 
索引 节点 操作 表 */ 

缺 省 的 索引 节点 操作 */ 
相关 的 超级 块 */ 

文件 锁链 表 */ 
相关 的 地 址 映射 */ 
设备 地 址 映射 */ 

索引 节点 的 磁盘 限额 */ 
块 设备 链表 */ 


管道 信息 */ 
块 设 备 驱动 */ 
字符 设备 驱动 */ 


目录 通知 掩 码 */ 

目录 通知 */ ， 

索引 节点 通知 监测 链表 */ 
保护 inotify watches */ 
状态 标志 */ 

第 一 次 弄 脏 数 据 的 时 间 */ 
文件 系统 标志 .*/ 

写 者 计数 */ 

安全 模块 */ 

fs 私有 指针 */ 


项 ， 比 如 i_pipe 项 就 指向 一 个 代表 有 名 管道 的 数据 结构 ，i_bdev 指向 块 设备 结构 体 ，i_cdev 指向 
字符 设备 结构 体 。 这 三 个 指针 被 存放 在 一 个 公用 体 中 ， 因 为 一 个 给 定 的 索引 节点 每 次 只 能 表示 三 
者 之 一 (或 三 者 均 不 )。 


有 时 ， 某 些 文件 系统 可 能 并 不 能 完整 地 包含 索引 节点 结构 体 要 求 的 所 有 信息 。 举 个 例子 ， 有 
的 文件 系统 可 能 并 不 记录 文件 的 访问 时 间 ， 这 时 ， 该 文件 系统 就 可 以 在 实现 中 选择 任意 合适 的 办 


法 来 解决 这 个 问题 。 它 可 以 在 i_atime 中 存储 0， 或 者 让 i atime 等 于 i mtime， 或 者 只 在 内 存 中 
更 新 i_atime 而 不 将 其 写 回 磁盘 ， 或 者 由 文件 系统 的 实现 者 来 决定 。 
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13.8 索引 节点 操作 


和 超级 块 操作 一 样 ， 索 引 节 点 对 象 中 的 inode_operations 项 也 非常 重要 ， 因 为 它 描 述 了 VFS 
用 以 操作 索引 节点 对 象 的 所 有 方法 ， 这 些 方法 由 文件 系统 实现 。 与 超级 块 类 似 ， 对 索引 节点 的 操 
作 调 用 方式 如 下 : 


i->i_op->truncate (i) 


i 指向 给 定 的 索引 节点 ，truncate( 函数 是 由 索引 节点 i 所 在 的 文件 系统 定义 的 。inode_ 
operations 结构 体 定义 在 文件 <linux/fs.h> 中 : 


struct inode operations { 
int (*create) (struct inode *,struct dentry *,int, struct nameidata *); 
struct dentry * (*lookup) (struct inode *,struct dentry *, struct nameidata *); 
int {*link) (struct dentry *,struct inode *,struct dentry *); 
int (*unlink) (struct inode *,struct dentry *); 
int (*symlink) (Struct inode *,struct dentry *,const char *); 
int (*mkdir) {struct inode *,struct dentry *,int); 
int (*rmdir) (struct inode *,struct dentry *); 
int (*mknod) (struct inode *,struct dentry *,int,dev t); 
int (*rename) (struct inode *, struct dentry *, 
struct inode *, struct dentry *); 
int (*readlink) (struct dentry *, char _ user *,int); 
void * (*follow link) (struct dentry *, struct nameidata *); 
void {(*put link) {struct dentry *, struct nameidata *, void *); 
void (*truncate) (struct inode *); 
int (*permission) (struct inode *, int); 
int (*setattr) {struct dentry *, struct iattr *); 
int (*getattr) {struct vfsmount *mnt, struct dentry *, struct kstat *); 
int (*setxattr) (struct dentry *, const char *,const void *,size t,int); 
ssize t (*getxattr) (struct dentry *, const char *, void *, size t+); 
ssize t (*listxattr)}) (struct dentry *, char *, size t); 
int (*removexattr) (struct dentry *, const char *); 
void (*truncate range)(struct inode *, loff t, loff t+); 
long (*fallocate)(struct inode *inode, int mode, loff t offset, 
loff t len); 
int (*fiemap)(Struct inode *, struct fiemap extent info *, u64 start, 
u64 len); 


下 面 这 些 接口 由 各 种 函数 组 成 ， 在 给 定 的 节点 上 ， 可 能 由 VFS 执行 这 些 函 数 ， 也 可 能 由 具 
体 的 文件 系统 执行 : 


e int create (struct inode *dir,struct dentry *dentry, int mode) 


VFS 通过 系统 调用 create() 和 open0( 来 调用 该 函数 ， 从 而 为 dentry 对 象 创建 一 个 新 的 索引 市 
点 。 在 创建 时 使 用 mode 指定 的 初始 模式 。 


e struct dentry * lookup{(struct inode *dir,struct dentry *dentry) 
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该 函数 在 特定 目录 中 寻找 索引 节点 ， 该 索引 节点 要 对 应 于 denrty 中 给 出 的 文件 名 。 


es int link(struct dentry *old dentry, 
struct inode *dir, 
struct dentry *dentry) 


该 函数 被 系统 调用 link0 调用 ， 用 来 创建 硬 连接 。 硬 连接 名 称 由 dentry 参数 指定 ， 连 接 对 象 
是 dir 目录 中 old_dentry 目录 项 所 代表 的 文件 。 


e int unlink(struct inode *dir,struct dentry *dentry) 


该 函数 被 系统 调用 unlink0 调用 ， 从 目录 dir 中 删除 由 目录 项 dentry 指定 的 索引 节点 对 象 。 


e int symlink(struct inode *dir, 
struct dentry *dentry, 
const char *symname) 


该 函数 被 系统 调用 symlik0 调用 ， 创 建 符号 连接 。 该 符号 连接 名 称 由 symname 指定 ， 连 接 
对 象 是 dir 目录 中 的 dentry 目录 项 。 
e int mkdir(struct inode *dir, 


struct dentry *dentry, 
int mode) 


该 函数 被 系统 调用 mkdir0 调用 ， 创 建 一 个 新 目录 。 创 建 时 使 用 mode 指定 的 初始 模式 。 


es int rmdir(struct inode *dir, 
struct dentry *dentry) 


该 函数 被 系统 调用 rmdir( 调用 ， 删 除 dir 目录 中 的 dentry 目录 项 代表 的 文件 。 


® int mknod(struct inode *dir, 
struct dentry *dentry, 
int mode ,dev t rdev) 


该 函数 被 系统 调用 mknod0 调用 ， 创 建 特殊 文件 (设备 文件 、 命 名 管道 或 套 接 字 )。 要 创建 
的 文件 放 在 dir 目录 中 ， 其 目录 项 为 dentry， 关 联 的 设备 为 rtev， 初 始 权限 由 mode 指定 。 


e int rename (Struct inode *old dir, 
struct dentry *old dentry, 
struct inode *new dir, 
struct dentry *new dentry) 


VFS 调用 该 函数 来 移动 文件 。 文 件 源 路 径 在 old_dir 目录 中 ， 源 文件 由 old_dentry 目录 项 指 
定 ， 目 标 路 径 在 new_dir 目录 中 ， 目 标 文件 由 new_dentry 指定 。 


e int readlink{struct dentry *dentry, 
char *buffer,int buflen) 


该 函数 被 系统 调用 readlink0O 调用 ， 拷 贝 数据 到 特定 的 缓冲 buffer 中 。 找 贝 的 数据 来 自 
dentry 指定 的 符号 连接 ， 持 贝 大 小 最 大 可 达 buflen 字 节 。 


® int follow link(struct dentry *dentry, 
struct nameidata *nd) 
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该 函数 由 VFS 调用 ， 从 一 个 符号 连接 查找 它 指向 的 索引 节点 。 由 dentry 指向 的 连接 被 解析 ， 
其 结果 存放 在 由 nd 指向 的 nameidata 结构 体 中 。 


e int put link(struct dentry *dentry, 
struct nameidata xna) 


在 follow_link 0 调用 之 后 ， 该 函数 由 VFS 调用 进行 清除 工作 。 


e void truncate(struct inode *inode) 


该 函数 由 VFS 调用 ， 修 改 文件 的 大 小 。 在 调用 前 ， 索 引 节 点 的 i_size 项 必须 设置 为 预期 的 大 小 。 


e int permission(struct inode *inode , int mask) 


该 函数 用 来 检查 给 定 的 inode 所 代表 的 文件 是 否 允 许 特定 的 访问 模式 。 如 果 人 允许 特定 的 访 
问 模式 ， 返 回 零 ， 和 否则 返回 负 值 的 错误 码 。 多 数 文件 系统 都 将 此 区 域 设置 为 NULL， 使 用 VFS 
提供 的 通用 方法 进行 检查 。 这 种 检查 操作 仅仅 比较 索引 节点 对 象 中 的 访问 模式 位 是 否 和 给 定 的 
mask 一 致 。 比 较 复杂 的 系统 〈 比 如 支持 访问 控制 链 (ACLS) 的 文件 系统 )， 需 要 使 用 特殊 的 
permission() 方法 。 


es int setattr(struct dentry *dentry, 
struct iattr *attr) 


该 函数 被 notify_change0 调用 ， 在 修改 索引 节点 后 ， 通 知 发 生 了 “改变 事件 ”。 


e int getattr(struct vfsmount *mnt, 
struct dentry *dentry, 
struct kstat *stat) 


在 通知 索引 节点 需要 从 磁盘 中 更 新 时 ，VFS 会 调用 该 函数 。 
扩展 属性 允许 key/value 这 样 的 一 对 值 与 文件 相关 联 。 


® int setxattr(struct dentry *dentry, 
const char *name, 
const void *value, 
size t size,int flags) 


该 函数 由 VFS 调用 ， 给 dentry 指定 的 文件 设置 扩展 属性 。 属 性 名 为 name, 值 为 value。 


® ssize 七 getxattr(struct dentry *dentry, 
const char *name, 
void *value,size t size) 


该 函数 由 VFS 调用 ， 向 value 中 拷贝 给 定 文件 的 扩展 属性 name 对 应 的 数值 。 


e ssize 七 listxattr(struct dentry *dentry, 
Char *list ,size t size) 


该 函数 将 特定 文件 的 所 有 属性 列表 拷贝 到 一 个 缓冲 列表 中 。 


® int removexattrl(struct dentry *dentry ， 
const char *name) 
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该 函数 从 给 定 文件 中 删除 指定 的 属性 。 


13.9 目录 项 对 象 


VFS 把 目录 当 作文 件 对 待 ， 所 以 在 路 径 /bin/vi 中 ，bin 和 i 都 属于 文件 一 bin 是 特殊 的 目录 文 
件 而 vi 是 一 个 普通 文件 ， 路 径 中 的 每 个 组 成 部 分 都 由 一 个 索引 节点 对 象 表示 。 虽 然 它们 可 以 统一 由 
索引 节点 表示 ， 但 是 VEFS 经 常 需要 执行 目录 相关 的 操作 ， 比 如 路 径 名 查找 等 。 路 径 名 查找 需要 解析 
路 径 中 的 每 一 个 组 成 部 分 ， 不 但 要 确保 它 有 效 ， 而 且 还 需要 再 进一步 寻找 路 径 中 的 下 一 个 部 分 。 

为 了 方便 查找 操作 ，VFS 引入 了 目录 项 的 概念 。 每 个 dentry 代表 路 径 中 的 一 个 特定 部 分 。 
对 前 一 个 例子 来 说 ，/、bin 和 vi 都 属于 目录 项 对 象 。 前 两 个 是 目录 ， 最 后 一 个 是 普通 文件 。 必 须 
明确 一 点 : 在 路 径 中 (包括 普通 文件 在 内 )， 每 一 个 部 分 都 是 目录 项 对 象 。 解 析 一 个 路 径 并 遍历 
其 分 量 绝 非 简单 的 演练 ， 它 是 耗 时 的 、 常 规 的 字符 串 比 较 过 程 ， 执 行 耗 时 、 代 码 繁琐 。 目 录 项 对 
象 的 引入 使 得 这 个 过 程 更 加 简单 。 

目录 项 也 可 包括 安装 点 。 在 路 径 /mnt/cdrom/foo 中 ， 构 成 元 素 /、mnt、cdrom 和 foo 都 属于 
目录 项 对 象 。VFS 在 执行 目录 操作 时 如 果 需 要 的 话 ) 会 现场 创建 目录 项 对 象 。 

目录 项 对 象 由 dentry 结构 体 表 示 ， 定 义 在 文件 <linux/dcache.h> 中 。 下 面 给 出 该 结构 体 和 其 
中 各 项 的 描述 : 


struct dentry { 


atomic 七 d_count; /* 使 用 记 数 */ 
unsigned int qd flags; /* 目录 项 标识 */ 
spinlock t d_lock; /* 单 目 录 项 锁 */ 
int d_mounted; /* 是 登录 点 的 目录 项 吗 ? */ 
struct inode *d_inode; /* 相关 联 的 索引 节点 */ 
struct hlist node d_hash; /* 散 列 表 */ 
struct dentry *d parent; /* 父 目录 的 目录 项 对 象 */ 
struct qstr d_name; /* 目录 项 名 称 */ 
struct list head d lru; /* 未 使 用 的 链表 */ 
union { 
struct list head d_child; /* 目录 项 内 部 形成 的 链表 */ 
struct rcu head d_rcu; /* RCU 加 锁 */ 
} au; 
struct list head d_subdirs; /* 于 目录 链表 */ 
struct list head d alias; /* 索引 节点 别名 链表 */ 
unsigned long d time; /* 重 置 时 间 */ 
struct dentry operations *d op; /* 目录 项 操作 指针 */ 
struct super block *d_sb; /* 文件 的 超级 块 */ 
void *a fsdata; /* 文件 系统 特有 数据 */ 
unsigned char d_iname [DNAME INLINE LEN _MIN] ; /* 短文 件 名 */ 


7 


与 前 面 的 两 个 对 象 不 同 ， 目 录 项 对 象 没 有 对 应 的 磁盘 数据 结构 ，VFS 根据 字符 串 形 式 的 路 
径 名 现场 创建 它 。 而 且 由 于 目录 项 对 象 并非 真 正 保存 在 磁盘 上 ， 所 以 目录 项 结构 体 没有 是 否 被 修 
改 的 标志 (也 就 是 是 否 为 脏 、 是 否 需要 写 回 磁盘 的 标志 )。 


13.9.1 目录 项 状态 
目录 项 对 象 有 三 种 有 效 状态 : 被 使 用 、 未 被 使 用 和 负 状 态 。 


厂 执 文件 关 纸 223 


一 个 被 使 用 的 目录 项 对 应 一 个 有 效 的 索引 节点 〈 即 d_inode 指向 相应 的 索引 节点 ) 并 且 表明 
该 对 象 存在 一 个 或 多 个 使 用 者 〈 即 d_count 为 正 值 )。 一 个 目录 项 处 于 被 使 用 状态 ， 意 味 着 它 正 
被 VFS 使 用 并 且 指 向 有 效 的 数据 ， 因 此 不 能 被 丢弃 。 

一 个 未 被 使 用 的 目录 项 对 应 一 个 有 效 的 索引 节点 〈d_inode 指向 一 个 索引 节点 )， 但 是 应 指 
明 VFS 当前 并 未 使 用 它 (d_count 为 0)。 该 目录 项 对 象 仍然 指向 一 个 有 效 对 象 ， 而 且 被 保留 在 缓 
存 中 以 便 需 要 时 再 使 用 它 。 由 于 该 目录 项 不 会 过 早 地 被 撤销 ， 所 以 以 后 再 需要 它 时 ， 不 必 重 新 创 
建 ， 与 未 缓存 的 目录 项 相 比 ， 这 样 使 路 径 查 找 更 迅速 。 但 如 果 要 回收 内 存 的 话 ， 可 以 撤销 未 使 用 
的 目录 项 。 

一 个 负 状 态 的 目录 项 9 没有 对 应 的 有 效 索 引 节点 (d_inode 为 NULL)， 因 为 索引 节点 已 被 删 
除了 ， 或 路 径 不 再 正确 了 ， 但 是 目录 项 仍然 保留 ， 以 便 快速 解析 以 后 的 路 径 查 询 。 比 如 ， 一 个 守 
护 进程 不 断 地 去 试图 打开 并 读 取 一 个 不 存在 的 配置 文件 。open() 系统 调用 不 断 地 返回 ENOENT， 
直到 内 核 构建 了 这 个 路 径 、 遍 历 磁盘 上 的 目录 结构 体 并 检查 这 个 文件 的 确 不 存在 为 止 。 即 便 这 
个 失败 的 查找 很 浪费 资源 ， 但 是 将 负 状 态 缓存 起 来 还 是 非常 值得 的 。 虽 然 负 状态 的 目录 项 有 些 用 
处 ， 但 是 如 果 有 需要 ， 可 以 撤销 它 ， 因 为 毕竟 实际 上 很 少 用 到 它 。 

目录 项 对 象 释 放 后 也 可 以 保存 到 slab 对 象 缓存 中 去 ， 这 点 在 第 12 章 讨论 过 。 此 时 ， 任 何 
VFS 或 文件 系统 代码 都 没有 指向 该 目录 项 对 象 的 有 效 引 用 。 


13.9.2 目录 项 缓存 


如 果 VFS 层 遍 历 路 径 名 中 所 有 的 元 素 并 将 它们 逐个 地 解析 成 目录 项 对 象 ， 还 要 到 达 最 深层 
目录 ， 将 是 一 件 非 常 费力 的 工作 ， 会 浪费 大 量 的 时 间 。 所 以 内 核 将 目录 项 对 象 缓存 在 目录 项 缓存 
(简称 dcache〉 中 。 

目录 项 缓存 包括 三 个 主要 部 分 : 

“被 使 用 的 ”目录 项 链表 。 该 链表 通过 索引 节点 对 象 中 的 i_dentry 项 连接 相关 的 索引 节点 ， 

因为 一 个 给 定 的 索引 节点 可 能 有 多 个 链接 ， 所 以 就 可 能 有 多 个 目录 项 对 象 ， 因 此 用 一 个 链 

表 来 连接 它们 。 

“最 近 被 使 用 的 ”双向 链表 。 该 链表 含有 未 被 使 用 的 和 负 状 态 的 目录 项 对 象 。 由 于 该 链 总 

是 在 头 部 播 入 目录 项 ， 所 以 链 头 节 点 的 数据 总 比 链 尾 的 数据 要 新 。 当 内 核 必须 通过 删除 节 

点 项 回收 内 存 时 ， 会 从 链 尾 删除 节点 项 ， 因 为 尾部 的 节点 最 旧 ， 所 以 它们 在 近期 内 再 次 被 

使 用 的 可 能 性 最 小 。 

“ 散 列表 和 相应 的 散 列 函 数 用 来 快速 地 将 给 定 路 径 解 析 为 相关 目录 项 对 象 。 

散 列 表 由 数组 dentry_hashtable 表示 ， 其 中 每 一 个 元 素 都 是 一 个 指向 具有 相同 键 值 的 目录 项 
对 象 链表 的 指针 。 数 组 的 大 小 取决 于 系统 中 物理 内 存 的 大 小 。 

实际 的 散 列 值 由 d_hash() 函数 计算 ， 它 是 内 核 提供 给 文件 系统 的 唯一 的 一 个 散 列 函数 。 

查找 散 列表 要 通过 d_lookup0 函数 ， 如 果 该 函数 在 dcache 中 发 现 了 与 其 相 匹 配 的 目录 项 对 
象 ， 则 匹配 的 对 象 被 返回 ; 否则 ， 返 回 NULL 指针 。 


日 这 个 名 字 容 易 产生 误导 ， 其 实 它 和 任何 负数 或 负 状 态 并 没有 联系 。 更 准确 的 名 称 应 该 是 无 效 目录 项 。 
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举例 说 明 ， 假 设 你 需要 在 自己 目录 中 编译 一 个 源 文件 ，/home/dracula/src/the_sun_ sucks.c， 
每 一 次 对 文件 进行 访问 (比如 说 ， 首 先 要 打开 它 ， 然 后 要 存储 它 ， 还 要 进行 编译 等 )，VFS 都 必 
须 沿 着 嵌 套 的 目录 依次 解析 全 部 路 径 : /、home、dracula、src 和 最 终 的 the_sun_sucks.c。 为 了 避 
免 每 次 访问 该 路 径 名 都 进行 这 种 耗 时 的 操作 , VFS 会 先 在 目录 项 缓存 中 搜索 路 径 名 ， 如 果 找 到 了 ， 
就 无 须 花费 那么 大 的 力气 了 。 相 反 ， 如 果 该 目录 项 在 目录 项 缓存 中 并 不 存在 ，VFS 就 必须 自己 通 
过 遍历 文件 系统 为 每 个 路 径 分 量 解 析 路 径 ， 解 析 完 毕 后 ， 再 将 目录 项 对 象 加 入 dcache 中 ， 以 便 
以 后 可 以 快速 查找 到 它 。 

而 dcache 在 一 定 意义 上 也 提供 对 索引 节点 的 缓存 ， 也 就 是 icache。 和 目录 项 对 象 相 关 的 索 
引 节 点 对 象 不 会 被 释放 ， 因 为 目录 项 会 让 相关 索引 节点 的 使 用 计数 为 正 ， 这 样 就 可 以 确保 索引 节 
点 留 在 内 存 中 。 只 要 目录 项 被 缓存 ， 其 相应 的 索引 节点 也 就 被 缓存 了 。 所 以 像 前 面 的 例子 ， 只 要 
路 径 名 在 缓存 中 找到 了 ， 那 么 相应 的 索引 节点 肯定 也 在 内 存 中 缓存 着 。 

因为 文件 访问 呈现 空间 和 时 间 的 局 部 性 ， 所 以 对 目录 项 和 索引 节点 进行 缓存 非常 有 益 。 文 
件 访问 有 时 间 上 的 局 部 性 ， 是 因为 程序 可 能 会 一 次 又 一 次 地 访问 相同 的 文件 。 因 此 ， 当 一 个 文件 
被 访问 时 ， 所 缓存 的 相关 目录 项 和 索引 节点 不 久 被 命中 的 概率 较 高 。 文 件 访问 具有 空间 的 局 部 性 
是 因为 程序 可 能 在 同一 个 目录 下 访问 多 个 文件 ， 因 此 一 个 文件 对 应 的 目录 项 缓存 后 极 有 可 能 被 命 
中 ， 因 为 相关 的 文件 可 能 在 下 次 又 被 使 用 。 


13.10 ”目录 项 操作 


dentry_operation 结构 体 指 明了 VFS 操作 目录 项 的 所 有 方法 。 
该 结构 定义 在 文件 <linux/dcache.h> 中 。 


struct dentry operations { 
int (*d revalidate) (struct dentry *, struct nameidata *); 
int (*d hash) (struct dentry *, struct qstr *); 
int (*d compare) (struct dentry *, struct qstr *, struct qstr *); 
int {(*d delete) (struct dentry *); 
void (*d release) (struct dentry *); 
void (*d iput) (struct dentry *, struct inode *); 
char *(*d dname) (struct dentry *, char *, int); 


}; 
下 面 给 出 函数 的 具体 用 法 : 


e int d revalidate(struct dentry *dentry ， 
struct nameidata*); 


该 函数 判断 目录 对 象 是 否 有 效 。VEFS 准备 从 dcache 中 使 用 一 个 目录 项 时 ， 会 调用 该 函数 。 
大 部 分 文件 系统 将 该 方法 置 NULL， 因 为 它们 认为 dcache 中 的 目录 项 对 象 总 是 有 效 的 。 
e int d_hash(struct dentry *dentry, 


struct qstr *name) 


该 函数 为 目录 项 生成 散 列 值 ， 当 目录 项 需要 加 入 到 散 列 表 中 时 ，VFS 调用 该 函数 。 


e int d_compare (Struct dentry *dentry, 
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struct qstr *namel, 
struct qstr *name2) 


VFS 调用 该 函数 来 比较 namel 和 name2 这 两 个 文件 名 。 多 数 文 件 系 统 使 用 VFS 默认 的 操 
作 ， 仅 仅 作 字符 串 比 较 。 对 有 些 文件 系统 ， 比 如 FAT， 简 单 的 字符 串 比 较 不 能 满足 其 需要 。 因 为 
FAT 文件 系统 不 区 分 大 小 写 ， 所 以 需要 实现 一 种 不 区 分 大 小 写 的 字符 串 比 较 函 数 。 注 意 使 用 该 函 
数 时 需要 加 dcache lock 锁 。 


e int d delete(struct dentry *dentry) 


当 目 录 项 对 象 的 d_count 计数 值 等 于 0 时 ，VFS 调用 该 函数 。 注 意 使 用 该 函数 需要 加 dcache_ 
lock 锁 和 目录 项 的 d_lock。 


e void d releasel(struct dentry *dentry) 


当 目 录 项 对 象 将 要 被 释放 时 ，VFS 调用 该 函数 ， 默 认 情况 下 ， 它 什么 也 不 做 。 


® void d iput(struct dentry *dentry, 
struct inode *inode) 


当 一 个 目录 项 对 象 丢失 了 其 相关 的 索引 节点 时 《〈 也 就 是 说 磁盘 索引 节点 被 删除 了 )，VFS 调 
用 该 函数 。 默 认 情况 下 VFS 会 调用 iputO 函数 释放 索引 节点 。 如 果 文 件 系统 重 载 了 该 函数 ， 那 么 
除了 执行 此 文件 系统 特殊 的 工作 外 ， 还 必须 调用 iputO 函数 。 


13.11 文件 对 象 … 


VFS 的 最 后 一 个 主要 对 象 是 文件 对 象 。 文 件 对 象 表示 进程 已 打开 的 文件 。 如 果 我 们 站 在 用 
户 角度 来 看 待 YFS， 文 件 对 象 会 首先 进入 我 们 的 视野 。 进 程 直接 处 理 的 是 文件 ， 而 不 是 超级 块 、 
索引 节点 或 目录 项 。 所 以 不 必 奇 怪 : 文件 对 象 包含 我 们 非常 熟悉 的 信息 《如 访问 模式 ， 当 前 偏 移 
等 )， 同 样 道理 ， 文 件 操作 和 我 们 非常 熟悉 的 系统 调用 read0 和 writeO 等 也 很 类 似 。 

文件 对 象 是 已 打开 的 文件 在 内 存 中 的 表示 。 该 对 象 〈 不 是 物理 文件 ) 由 相应 的 open0 系统 
调用 创建 ， 由 close0 系统 调用 撤销 ， 所 有 这 些 文件 相关 的 调用 实际 上 都 是 文件 操作 表 中 定义 的 
方法 。 因 为 多 个 进程 可 以 同时 打开 和 操作 同一 个 文件 ， 所 以 同一 个 文件 也 可 能 存在 多 个 对 应 的 文 
件 对 象 。 文 件 对 象 仅 仅 在 进程 观点 上 代表 已 打开 文件 ， 它 反 过 来 指向 目录 项 对 象 《 反 过 来 指向 索 
引 节 点 )， 其 实 只 有 目录 项 对 象 才 表示 已 打开 的 实际 文件 。 虽 然 一 个 文件 对 应 的 文件 对 象 不 是 唯 
一 的 ， 但 对 应 的 索引 节点 和 目录 项 对 象 无 疑 是 唯一 的 。 

文件 对 象 由 file 结构 体 表示 ， 定 义 在 文件 <linux/fs.h> 中 ， 下 面 给 出 该 结构 体 和 各 项 的 描述 。 


struct file { 
union { 


struct list head fu list; /* 文件 对 象 链表 */ 


struct rcu head fu rcuhead; /* 释放 之 后 的 RCU 链表 */ 
} fu; 
struct path £f path; /* 包含 目录 项 */ 
struct file operations * 工 Op; /* 文件 操作 表 */ 
spinlock t £f_lock; /* 单个 文件 结构 锁 */ 


atomic t f_count; /* 文件 对 象 的 使 用 计数 */ 
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unsigned int £ flags; /* 当 打 开 文 件 时 所 指定 的 标志 */ 
mode 七 f_mode; /* 文件 的 访问 模式 */ 

loff t £f pos; /* 文件 当前 的 位 移 量 (文件 指针 ) */ 
struct fown struct £f_owner; /* 拥有 者 通过 信号 进行 异步 I/0 数据 的 传送 */ 
const struct cred *f£_cred; /* 文件 的 信任 状 */ 

struct file ra state f ra; /* 预 读 状 态 */ 

64 f_version; /* 版 本 号 */ 

void *f_security; /* 安全 模块 */ 

void *private_data; /* tty 设备 驱动 的 钧 子 */ 
struct list head f_ ep links; /* 事件 池 链 表 */ 

spinlock 七 f ep lock; /* 事件 地 锁 */ 

struct address space *f_ mapping; /* 页 缓存 映射 */ 

unsigned long f mnt write state; /* 调试 状态 * 


}; 


类 似 于 目录 项 对 象 ， 文 件 对 象 实际 上 没有 对 应 的 磁盘 数据 。 所 以 在 结构 体 中 没有 代表 其 对 象 
是 否 为 脏 、 是 否 需要 写 回 磁盘 的 标志 。 文 件 对 象 通 过 f_dentry 指针 指向 相关 的 目录 项 对 象 。 目 录 
项 会 指向 相关 的 索引 节点 ， 索 引 节 点 会 记录 文件 是 否 是 脏 的 。 


13.12 文件 操作 


和 VFS 的 其 他 对 象 一 样 ， 文 件 操作 表 在 文件 对 象 中 也 非常 重要 。 跟 file 结构 体 相 关 的 操作 
与 系统 调用 很 类 似 ， 这 些 操作 是 标准 Unix 系统 调用 的 基础 。 
文件 对 象 的 操作 由 file_operations 结构 体 表 示 ， 定 义 在 文件 <linux/fs.h> 中 : 


struct file operations { 
struct module *owner; 
loff t (*llseek) {struct file *, loff t, int); 
ssize t (*read) {struct file *, char _ user *, size t, loff t *); 
ssize t {(*write) (Struct file *, const char _ user *, size t, loff t *); 
ssize t (*aio read) {struct kiocb *, const struct iovec *, 
unsigned long, loff t+); 
ssize t (*aio write) (struct kiocb *, const struct iovec *, 
unsigned long, loff t+); 
int (*readdir) (struct file *, void *, filldir t+); 
unsigned int (*poll) (struct file *, struct poll table struct *); 
int (*ioct1) (struct inode *, struct file *, unsigned int, 
unsigned long); 
long (*unlocked ioct1) {struct file *, unsigned int, unsigned long); 
long (*compat ioctl)} (struct file *, unsigned int, unsigned long); 
int (*mmap) (struct file *, struct vm area struct *); 
int (*open) (Struct inode *, struct file *); 
int (*flush) (struct file *, fl1 owner t id); 
int (*release) (struct inode *, struct file *); 
int (*fsync) (struct file *, struct dentry *, int datasync); 
int (*aio fsync) {struct kiocb *, int datasync); 
int (*fasync) (int, struct file *, int); 
int (*lock) (struct file *, int, struct file lock *); 
ssize + (*sendpage) {struct file *, struct page *, 
int, size t, loff t *, int); 

unsigned long (*get unmapped area》 {struct file *, 

unsigned long, 
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unsigned long, 
unsigned long, 
unsigned long); 
int (*check flags) (int); 
int (*flock) (struct file *, int, struct file lock *); 
ssize t (*splice write)} (struct pipe inode info *, 
struct file *, 
loff t *, 
size t, 
unsigned int); 
ssize t {*splice read) (struct file *， 
loff t *, 
struct pipe inode info *, 
size 七 ， 
unsigned int); 
int (*SetLease) (struct file *, long, struct file lock **); 


}; 


有 具体 的 文件 系统 可 以 为 每 一 种 操作 做 专门 的 实现 ， 或 者 如 果 存 在 通用 操作 ， 也 可 以 使 用 通用 
操作 。 一 般 在 基于 Unix 的 文件 系统 上 ， 这 些 通用 操作 效果 都 不 错 。 并 不 要 求实 际 文件 系统 实现 
文件 操作 函数 表 中 的 所 有 方法 一 一 虽然 不 实现 最 基础 的 那些 操作 显然 是 很 不 明智 的 ， 对 不 感 兴趣 
的 操作 完全 可 以 简单 地 将 该 函数 指针 置 为 NULL。 

下 面 给 出 操作 的 用 法 说 明 : 


e loff t lleekl(struct file *file, 
loff t offset ,int origin) 


该 函数 用 于 更 新 偏 移 量 指针 ， 由 系统 调用 lleek0 调用 它 。 


e ssize t read(lstruct file *file, 
char *buf,size t count, 
loff 七 *offset) 


该 函数 从 给 定 文件 的 offset 偏 移 处 读 取 conut 字 节 的 数据 到 buf 中 , 同时 更 新 文件 指针 。 由 
系统 调用 read0O 调用 它 。 


e ssize t aio read{(struct kiocb *iocb, 
char *buf, size t count, 
loff t offset) 


该 函数 从 iocb 描述 的 文件 里 ， 以 同步 方式 读 取 count 字 节 的 数据 到 buf 中 。 由 系统 调用 aio_ 
read0 调用 它 。 


e ssize t write(struct file *file, 
const, char *buf,size t count, 
loff t *offset) 


该 函数 从 给 定 的 buf 中 取出 conut 字 节 的 数据 ， 写 入 给 定 文件 的 offset 偏 移 处 ， 同 时 更 新 文 
件 指针 。 由 系统 调用 writeO 调用 它 。 
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® ssize t aio writelstruct kiocb *iocb, 
const,char *buf, 
size t count, loff t offset) 


该 函数 以 同步 方式 从 给 定 的 buf 中 取出 conut 字 节 的 数据 ， 写 入 由 iocb 描述 的 文件 中 。 由 系 
统 调用 aio_write0 调用 它 。 
e int readdir(struct file *file ,void *dirent ,filldir 七 filldir) 


该 函数 返回 目录 列表 中 的 下 一 个 目录 。 由 系统 调用 readdir0 调用 它 。 


e unsigned int polll(struct file *file, 
struct poll table struct *poll table) 


该 函数 睡眠 等 待 给 定 文件 活动 。 由 系统 调用 poll0 调用 它 。 


e int ioctl(struct inode *inode, 
struct file *file, 
unsigned int cmd, 
unsigned long arg) 


该 函数 用 来 给 设备 发 送 命令 参数 对 。 当 文件 是 一 个 被 打开 的 设备 节点 时 ， 可 以 通过 它 进 行 设 
置 操作 。 由 系统 调用 ioctl0 调用 它 。 调 用 者 必须 持 有 BKL。 


® int unlocked ioct1 (Struct file *file, 
unsigned int cmd， 
unsigned long arg) 


其 实现 与 joctl0 有 类 似 的 功能 ， 只 不 过 不 需要 调用 者 持 有 BKL。 如 果 用 户 空间 调用 ioctlO 
系统 调用 ，VFS 便 可 以 调用 unlocked_ioctl0 (凡是 iocti0 出 现 的 场所 )。 因 此 文件 系统 只 需要 实 
现 其 中 的 一 个 ， 一 般 优先 实现 unlocked_iocti0。 


e int compat ioctl(struct file *file, 
unsigned int cmd, 
unsigned long arg) 


该 函数 是 ioctl0 函数 的 可 移植 变种 ， 被 32 位 应 用 程序 用 在 64 位 系统 上 。 这 个 函数 被 设 
计 成 即使 在 64 位 的 体系 结构 上 对 32 位 也 是 安全 的 ， 它 可 以 进行 必要 的 字 大 小 转换 。 新 的 驱动 
程序 应 该 设计 自己 的 ioctl 命 令 以 便 所 有 的 驱动 程序 都 是 可 移植 的 ， 从 而 使 得 compat ioctlO 和 
unlocked_iocti0 指向 同一 个 函数 。 像 compat ioctliO 和 unlocked_ioctiO 一 样 都 不 必 持 有 BKL。 


e int mmap(lstruct file *file,struct vm area_ struct *vma) 


该 函数 将 给 定 的 文件 映射 到 指定 的 地 址 空间 上 。 由 系统 调用 mmap0 调用 它 。 


e int openl(struct inode *inode, 
struct file *file) 


该 函数 创建 一 个 新 的 文件 对 象 ， 并 将 它 和 相应 的 索引 节点 对 象 关联 起 来 。 由 系统 调用 open( 
调用 它 。 


e int flush{struct file *file) 
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当 已 打开 文件 的 引用 计数 减少 时 ， 该 函数 被 VFS 调用 。 它 的 作用 根据 具体 文件 系统 而 定 。 


® int release(struct inode *inode, 
struct file *file) 


当 文 件 的 最 后 一 个 引用 被 注销 时 《〈 比 如 ， 当 最 后 一 个 共享 文件 描述 符 的 进程 调用 了 close0 
或 退出 时 )， 该 函数 会 被 VFS 调用 。 它 的 作用 根据 具体 文件 系统 而 定 。 
e int fsync(struct file xfile， 


struct dentry *dentry, 
int datasync) 


将 给 定 文件 的 所 有 被 缓存 数据 写 回 磁盘 。 由 系统 调用 fsync0 调用 它 。 


e int aio fsync(struct kiocb *iocb, 
int datasync) 


将 iocb 描述 的 文件 的 所 有 被 缓存 数据 写 回 到 磁盘 。 由 系统 调用 aio_fsync0 调用 它 。 


e int fasync (int fqd,struct file *file ,int on) 
该 函数 用 于 打开 或 关闭 异步 IO 的 通告 信号 。 


e int lock (struct file *file,int cmd,struct file_ lock *lock) 


该 函数 用 于 给 指定 文件 上 锁 。 


e ssize t readv(struct file *file, 
const struct iovec *vector, 
unsigned long count, 
loff t *offset) 


该 函数 从 给 定 文件 中 读 取 数据 ， 并 将 其 写 入 由 vector 描述 的 count 个 缓冲 中 去 ， 同 时 增加 文 
件 的 偏 移 量 。 由 系统 调用 readv0 调用 它 。 


e Ssize t writev(struct file *file, 
const struct iovec *vector, 
unsigned long count, 
loff t *offset) 


该 函数 将 由 vector 描述 的 count 个 缓冲 中 的 数据 写 入 到 由 file 指定 的 文件 中 去 ， 同 时 减 小 文 
件 的 偏 移 量 。 由 系统 调用 writev0 调用 它 。 


e ssize t sendfile(struct file *file, 
loff t *offset, 
size t size, 
read actor 七 actor， 
void *target) 


该 函数 用 于 从 一 个 文件 拷贝 数据 到 另 一 个 文件 中 ， 它 执行 的 拷贝 操作 完全 在 内 核 中 完成 ， 避 
免 了 向 用 户 空间 进行 不 必要 的 拷贝 。 由 系统 调用 sendfile( 调用 它 。 
e。 ssize t sendpage(struct file *file, 
struct page *page, 


int offset,size t size, 
loff t *pos, int more) 
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该 函数 用 来 从 一 个 文件 向 另 一 个 文件 发 送 数据 。 


e unsigned long get_unmapped_area(Struct file *file, 
unsigned long aqaqr， 
unsigned long len, 
unsigned long offset, 
unsigned long flags) 


该 函数 用 于 获取 未 使 用 的 地 址 空间 来 映射 给 定 的 文件 。 


e int check flags (int flags) 


当 给 出 SETFL 命令 时 ， 这 个 函数 用 来 检查 传递 给 fcnti() 系统 调用 的 fags 的 有 效 性 。 与 大 
多 数 VFS 操作 一 样 ， 文 件 系统 不 必 实 现 check_flagsO 目前 ， 只 有 在 NFS 文件 系统 上 实现 了 。 
这 个 函数 能 使 文件 系统 限制 无 效 的 SETFL 标志 ， 不 进行 限制 的 话 ， 普 通 的 fentl0 函数 能 使 标志 
生效 。 在 NFS 文件 系统 中 ， 不 允许 把 O_APPEND 和 O_DIRECT 相 结合 。 

e int fock(struct file *filp, 


int cmd, 
struct file_lock *fl) 


这 个 函数 用 来 实现 flock0 系统 调用 ， 该 调用 提供 忠告 锁 。 
各 如 此 之 多 的 loctls 


证 


不 久之 前 ， 只 有 一 个 单独 的 ioctl 方 法 。 如今 ， 有 三 个 相关 的 方法 。unlocked_ioctl0 和 


这 
，。 ioctl 相同， 不 过 前 者 在 无 大 内 核 锁 (BKL) 情况 下 被 调用 。 因 此 函数 的 作者 必须 确保 适当 的 
， 同步 。 因 为 大 内 核 锁 是 粗 粒度 、 低 效 的 锁 ， 驱 动 程序 应 当 实现 unlocked_ ioctl0 而 不 是 ioctl0。 
| compat ioctl0 也 在 无 大 内 核 锁 的 情况 下 被 调用 ， 但 是 它 的 目的 是 为 64 位 的 系统 提供 32 
上 


位 ioctl 的 兼容 方法 。 至 于 你 如 何 实现 它 取 决 于 现 有 的 ioctl 命令 。 早 期 的 驱动 程序 隐 含 有 确 








， 定 大 小 的 类 型 (如 long)， 应 该 实现 适用 于 32 位 应 用 的 compat_ioctl0 方法 。 这 通常 意味 着 把 


32 位 值 转换 为 64 位 内 核 中 合适 的 类 型 。 新 驱动 程序 重新 设计 ioctl 命令 ， 应 该 确保 所 有 的 参 
数 和 数据 都 有 明确 大 小 的 数据 类 型 ， 在 32 位 系统 上 运行 32 位 应 用 是 安全 的 ， 在 64 位 系统 上 
运行 32 位 应 用 也 是 安全 的 ， 在 64 位 系统 上 运行 64 位 应 用 更 是 安全 的 。 这 些 驱 动 程序 可 以 让 
compat_ioctl() 函数 指针 和 unlocked ioctl0 函数 指针 指向 同一 函数 。 


13.13 ”和 文件 系统 相关 的 数据 结构 


除了 以 上 几 种 VFS 基础 对 象 外 ， 内 核 还 使 用 了 另外 一 些 标准 数据 结构 来 管理 文件 系统 的 其 
他 相关 数据 。 第 一 个 对 象 是 fle_system type， 用 来 描述 各 种 特定 文件 系统 类 型 ， 比 如 ext3 、ext4 
或 UDF。 第 二 个 结构 体 是 vfsmount， 用 来 描述 一 个 安装 文件 系统 的 实例 。 

因为 Linux 支持 众多 不 同 的 文件 系统 ， 所 以 内 核 必 须 由 一 个 特殊 的 结构 来 描述 每 种 文件 系统 
的 功能 和 行为 。file_system_type 结构 体 被 定义 在 <linux/fs.h> 中 ， 具 体 实现 如 下 : 

struct file system type { 


const char *name; /* 文件 系统 的 名 字 */ 
int fs flags; /* 文件 系统 类 型 标志 */ 


3 






唐 拟 文件 关 颖 231 


/* 下 面 的 函数 用 来 从 磁盘 中 读 取 超级 块 */ 
struct super block *{*get sb) (struct file system type *, int, 
char *, void x) 7 


/* 下 面 的 函数 用 来 终止 访问 超级 块 */ 

void (*kill_ sb) (struct super block *); 
struct module *OWNer; /* 文件 系统 模块 */ 

struct file system type *next; /* 链表 中 下 一 个 文件 系统 类 型 */ 
struct list head fs_supers; /* 超级 块 对 象 链表 */ 

/* 剩 下 的 几 个 字段 运行 时 使 锁 生 效 */ 

struct lock class key s_ lock key; 

struct lock class_ key s umount key; 

struct lock class key i lock key; 

struct lock class key i mutex key; 

struct lock class key i mutex dir key; 

struct lock class key i alloc sem key; 


}; 


get_sb() 函数 从 磁盘 上 读 取 超 级 块 ， 并 且 在 文件 系统 被 安装 时 ， 在 内 存 中 组 装 超 级 块 对 象 。 
剩余 的 函数 拉 述 文件 系统 的 属性 。 

每 种 文件 系统 ， 不 管 有 多 少 个 实例 安装 到 系统 中 ， 还 是 根本 就 没有 安装 到 系统 中 ， 都 只 有 一 
个 file_system _type 结构 。 

更 有 趣 的 事情 是 ， 当 文件 系统 被 实际 安装 时 ， 将 有 一 个 vfsmount 结构 体 在 安装 点 被 创建 。 
该 结构 体 用 来 代表 文件 系统 的 实例 一 一 换 句 话 说， 代表 一 个 安装 点 。 

vfsmount 结构 被 定义 在 <linux/mount.h> 中 ， 下 面 是 具体 结构 : 


struct vfsmount { 


struct list head mt hash; /* 散 列 表 */ 

struct vfsmount *mnt parent; /* 父 文件 系统 */ 

struct dentry *mnt_ mountpoint; /* 安装 点 的 目录 项 */ 
struct dentry *mnt root; /* 该 文件 系统 的 根 目 录 项 */ 
struct super block *mnt_ sb; /* 该 文件 系统 的 超级 块 */ 
struct list head mnt mounts; /* 子 文件 系统 链表 */ 
struct list head mt _child; /* 子 文件 系统 链表 */ 

int mt flags; /* 安装 标志 */ 

char *mnt_devname; /* 设备 文件 名 */ 

struct list head mnt list; /* 描述 符 链表 */ 

struct list head mt expire; /* 在 到 期 链表 中 的 入 口 */ 
struct list head mt share; /* 在 共享 安装 链表 中 的 入 口 */ 
struct list head mt slave list; /* 从 安装 链表 */ 

struct list head mt slave; /* 从 安装 链表 中 的 入 口 */ 
struct vfsmount *mnt master; /* 从 安装 链表 的 主人 */ 
struct mnt namespace *mnt_ namespace; /* 相关 的 命名 空间 */ 

int mt id; /* 安装 标识 符 */ 

int mt _ group id; /* 组 标识 符 */ 

atomic 七 mt _ count; /* 使 用 计数 */ 

int mnt expiry mark; /* 如 果 标记 为 到 期 ， 则 值 为 真 */ 
int mt pinned; /* “人 钉 住 ”进程 计数 */ 
int mnt_ghosts; /* “镜像 ”引用 计数 */ 
atomic t _ mnt writers; /* 写 者 引用 计数 */ 


}; 
理 清 文件 系统 和 所 有 其 他 安装 点 间 的 关系 ， 是 维护 所 有 安装 点 链表 中 最 复杂 的 工作 。 所 以 
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vfsmount 结构 体 中 维护 的 各 种 链表 就 是 为 了 能 够 跟踪 这 些 关 联 信息 。 
vfsmount 结构 还 保存 了 在 安装 时 指定 的 标志 信息 ， 该 信息 存储 在 mnt_flages 域 中 。 表 13-1 
列 出 了 标准 的 安装 标志 。 


表 13-1 标准 安装 标志 列表 


标志 质 。 述 
MNT_NOSUID 禁止 该 文件 系统 的 可 执行 文件 设置 setuid 和 setgid 标志 
MNT_ MODEV 禁止 访问 该 文件 系统 上 的 设备 文件 
MNT_NOEXEC 禁止 执行 该 文件 系统 上 的 可 执行 文件 


安装 那些 管理 员 不 充分 信任 的 移动 设备 时 ， 这 些 标志 很 有 用 处 。 它 们 和 其 他 一 些 很 少 用 的 标 
志 一 起 定义 在 <linux/mount.h> 中 。 


13.14 ”和 进程 相关 的 数据 结构 


系统 中 的 每 一 个 进程 都 有 自己 的 一 组 打开 的 文件 ， 像 根 文件 系统 、 当 前 工作 目录 、 安 装点 
等 。 有 三 个 数据 结构 将 VFS 层 和 系统 的 进程 紧密 联系 在 一 起 ， 它 们 分 别 是 : file_struct 、fs_struct 
和 namespace 结构 体 。 

file_struct 结构 体 定义 在 文件 <linux/fdtable.h> 中 。 该 结构 体 由 进程 描述 符 中 的 files 目录 项 
指向 。 所 有 与 单个 进程 (per-process) 相关 的 信息 〈 如 打开 的 文件 及 文件 描述 符 ) 都 包含 在 其 
中 ， 其 结构 和 描述 如 下 : 


struct files struct { 


atomic t count; /* 结构 的 使 用 计数 */ 
struct fdtable *fdt; /* 指向 其 他 fa 表 的 指针 */ 
struct fdtable fdtab; /* 基 fd 表 */ 

spinlock t file_lock; /* 单个 文件 的 锁 */ 

int next_fd; /* 缓存 下 一 个 可 用 的 fd */ 


struct embedded fqd set close on exec init; /* exec() 时 关闭 的 文件 描述 符 链表 */ 
struct embedded fq set open fds init /* 打开 的 文件 描述 符 链 表 */ 
. struct file *fqd_array [NR_OPEN_DEFAULT] ; /* 缺 省 的 文件 对 象 数组 */ 
fd array 数组 指针 指向 已 打开 的 文件 对 象 。 因 为 NR OPEN DEFAULT 等 于 BITS PER_ 
LONG, 在 64 位 机 器 体系 结构 中 这 个 宏 的 值 为 64 ， 所 以 该 数组 可 以 容纳 64 个 文件 对 象 。 如 果 一 
个 进程 所 打开 的 文件 对 象 超过 64 个 , 内 核 将 分 配 一 个 新 数组 ， 并 且 将 fdt 指针 指向 它 。 所 以 对 适 
当 数 量 的 文件 对 象 的 访问 会 执行 得 很 快 ， 因 为 它 是 对 静态 数组 进行 的 操作 ; 如 果 一 个 进程 打开 的 
文件 数量 过 多 ， 那 么 内 核 就 需要 建立 新 数组 。 所 以 如 果 系 统 中 有 大 量 的 进程 都 要 打开 超过 64 个 
文件 ， 为 了 优化 性 能 ， 管 理 员 可 以 适当 增 大 NR_OPEN_DEFAULT 的 预定 义 值 。 
和 进程 相关 的 第 二 个 结构 体 是 fs_struct。 该 结构 由 进程 描述 符 的 全 域 指向 。 它 包含 文件 系统 
和 进程 相关 的 信息 ， 定 义 在 文件 <linux/fs_struct.h> 中 ， 下 面 是 它 的 具体 结构 体 和 各 项 描述 : 
struct fs_struct { 


int users; /* 用 户 数目 */ 
rwlock t lock; /* 保护 该 结构 体 的 镇 */ 
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int umask; /* 掩 码 */ 

int in exec; /* 当前 正在 执行 的 文件 */ 
struct path root; /* 根 目录 路 径 */ 
struct path pwd; /* 当前 工作 目录 的 路 径 */ 


}; 

该 结构 包含 了 当前 进程 的 当前 工作 目录 (pwd) 和 根 目录 。 

第 三 个 也 是 最 后 一 个 相关 结构 体 是 namespace 结构 体 。 它 定义 在 文件 <linux/mmt_ 
namespace.h> 中 ， 由 进程 描述 符 中 的 mmt_namespace 域 指向 。2.4 版 内 核 以 后 ， 单 进程 命名 空间 
被 加 入 到 内 核 中 ， 它 使 得 每 一 个 进程 在 系统 中 都 看 到 唯一 的 安装 文件 系统 一 一 不 仅 是 唯一 的 根 目 
录 ， 而 且 是 唯一 的 文件 系统 层次 结构 。 下 面 是 其 具体 结构 和 描述 : 


struct mmt namespace { 





atomic t count; /* 结构 的 使 用 计数 */ 
struct vfsmount *root; /* 根 且 录 的 安装 点 对 象 */ 
struct list head list;  /* 安装 点 链表 */ 

wait queue head 七 poll; /* 轮 询 的 等 待 队列 */ 
int event; /* 事件 计数 */ 


}; 


list 域 是 连接 已 安装 文件 系统 的 双向 链表 ， 它 包含 的 元 素 组 成 了 全 体 命 名 空间 。 

上 述 这 些 数 据 结构 都 是 通过 进程 描述 符 连接 起 来 的 。 对 多 数 进程 来 说 ， 它 们 的 描述 符 都 指向 
唯一 的 files_struct 和 人 _struct 结构 体 。 但 是 ， 对 于 那些 使 用 克隆 标志 CLONE FILES 或 CLONE_ 
FS 创建 的 进程 ， 会 共享 9 这 两 个 结构 体 。 所 以 多 个 进程 描述 符 可 能 指向 同一 个 files_struct 或 fs_ 
struct 结构 体 。 每 个 结构 体 都 维护 一 个 count 域 作 为 引用 计数 ， 它 防止 在 进程 正 使 用 该 结构 时 ， 
该 结构 被 撤销 。 

namespace 结构 体 的 使 用 方法 却 和 前 两 种 结构 体 完 全 不 同 ， 默 认 情 况 下 ， 所 有 的 进程 共享 同 
样 的 命名 空间 (也 就 是 ， 它 们 都 从 相同 的 挂 载 表 中 看 到 同一 个 文件 系统 层次 结构 )。 只 有 在 进行 
clone() 操作 时 使 用 CLONE_NEWS 标志 ， 才 会 给 进程 一 个 唯一 的 命名 空间 结构 体 的 拷贝 。 因 为 
大 多 数 进程 不 提供 这 个 标志 ， 所 有 进程 都 继承 其 父 进程 的 命名 空间 。 因 此 ， 在 大 多 数 系 统 上 只 有 
一 个 命名 空间 ， 不 过 ，CLONE_NEWS 标志 可 以 使 这 一 功能 失效 。 


13.15 小结 


Linux 支持 了 相当 多 种 类 的 文件 系统 。 从 本 地 文件 系统 (如 ext3 和 ext4) 到 网 络 文件 系统 
《如 NFS 和 Coda)，Linux 在 标准 内 核 中 已 支持 的 文件 系统 超过 60 种 。VFS 层 提供 给 这 些 不 同文 
件 系统 一 个 统一 的 实现 框架 ， 而 且 也 提供 了 能 和 标准 系统 调用 交互 工作 的 统一 接口 。 由 于 VFS 
层 的 存在 ， 使 得 在 Linux 上 实现 新 文件 系统 的 工作 变 得 简单 起 来 ， 它 可 以 轻松 地 使 这 些 文件 系统 
通过 标准 Unix 系统 调用 而 协同 工作 。 
本 章 描述 了 VFS 的 目的 ， 讨 论 了 各 种 数据 结构 ， 包 括 最 重要 的 索引 节点 、 目 录 项 以 及 超 
级 块 对 象 。 第 14 章 将 讨论 数据 如 何 从 物理 上 存放 在 文件 系统 中 。 


日 ”线程 通常 在 创建 时 使 用 CLONE_FILES 和 CLONE FS 标志， 所 以 多 个 线程 共享 一 个 file_struct 结构 体 和 全 _ 
struct 结构 体 。 但 另 一 方面 ， 普 通 进 程 没有 指定 这 些 标 志 ， 所 以 它们 有 自己 的 文件 系统 信息 和 打开 文件 表 。 


第 44 章 
块 VO 层 


系统 中 能 够 随机 不 需要 按 顺 序 ) 访问 固定 大 小 数据 片 〈chunks〉 的 硬件 设备 称 作 块 设备 ， 
这 些 固定 大 小 的 数据 片 就 称 作 块 。 最 常见 的 块 设备 是 硬盘 ， 除 此 以 外 ， 还 有 软盘 驱动 器 、 蓝 光 光 
驱 和 闪存 等 许多 其 他 块 设备 。 注 意 ， 它 们 都 是 以 安装 文件 系统 的 方式 使 用 的 一 一 这 也 是 块 设备 一 
般 的 访问 方式 。 

另 一 种 基本 的 设备 类 型 是 字符 设备 。 字 符 设备 按照 字符 流 的 方式 被 有 序 访问 ， 像 串口 和 键 
盘 就 属于 字符 设备 。 如 果 一 个 硬件 设备 是 以 字符 流 的 方式 被 访问 的 话 ， 那 就 应 该 将 它 归于 字符 设 
备 ; 反 过 来 ， 如 果 一 个 设备 是 随机 (无 序 的 ) 访问 的 ， 那 么 它 就 属于 块 设备 。 

对 于 这 两 种 类 型 的 设备 ， 它 们 的 区 别 在 于 是 否 可 以 随机 访问 数据 一 一 换 句 话说 ， 就 是 能 否 
在 访问 设备 时 随意 地 从 一 个 位 置 跳 转 到 另 一 个 位 置 。 举 个 例子 ， 键 盘 这 种 设备 提供 的 就 是 一 个 数 
据 流 ， 当 你 输入 “wolf” 这 个 字符 串 时 ， 键 盘 驱 动 程序 会 按照 和 输入 完全 相同 的 顺序 返回 这 个 由 
四 个 字符 组 成 的 数据 流 。 如 果 让 键盘 驱动 程序 打 乱 顺序 来 读 字符 串 ， 或 读 取 其 他 字符 ， 都 是 没有 
意义 的 。 所 以 键盘 就 是 一 种 典型 的 字符 设备 ， 它 提供 的 就 是 用 户 从 键盘 输入 的 字符 流 。 对 键盘 进 
行 读 操作 会 得 到 一 个 字符 流 ， 首 先是 “w”， 然 后 是 “o”， 再 是 “1”， 最 后 是 “x”。 当 没 人 敲 键盘 
时 ， 字 符 流 就 是 空 的 。 硬 盘 设备 的 情况 就 不 大 一 样 了 。 硬 盘 设 备 的 驱动 可 能 要 求 读 取 磁 盘 上 任意 
块 的 内 容 ， 然 后 又 转 去 读 取 别 的 块 的 内 容 ， 而 被 读 取 的 块 在 磁盘 上 位 置 不 一 定 要 连续 。 所 以 说 硬 
盘 的 数据 可 以 被 随机 访问 ， 而 不 是 以 流 的 方式 被 访问 ， 因 此 它 是 一 个 块 设备 。 

内 核 管理 块 设备 要 比 管理 字符 设备 细致 得 多 ， 需 要 考虑 的 问题 和 完成 的 工作 相对 于 字符 设 
备 来 说 要 复杂 许多 。 这 是 因为 字符 设备 仅仅 需要 控制 一 个 位 置 一 一 当前 位 置 ， 而 块 设备 访问 的 位 
置 必 须 能 够 在 介质 的 不 同 区 间 前 后 移动 。 所 以 事实 上 内 核 不 必 提 供 一 个 专门 的 子 系统 来 管理 字符 
设备 ， 但 是 对 块 设备 的 管理 却 必须 要 有 一 个 专门 的 提供 服务 的 子 系统 。 不 仅仅 是 因为 块 设备 的 复 
杂 性 远 远 高 于 字符 设备 ， 更 重要 的 原因 是 块 设 备 对 执行 性 能 的 要 求 很 高 ; 对 硬盘 每 多 一 份 利用 都 
会 对 整个 系统 的 性 能 带 来 提升 ， 其 效果 要 远 远 比 键盘 吞吐 速度 成 倍 的 提高 大 得 多 。 另 外 ， 我 们 将 
会 看 到 ， 块 设备 的 复杂 性 会 为 这 种 优化 留 下 很 大 的 施展 空间 。 这 一 章 的 主题 就 是 讨论 内 核 如 何 对 
块 设备 和 块 设备 的 请 求 进行 管理 。 该 部 分 在 内 核 中 称 作 块 VO 层 。 有 趣 的 是 ， 改 写 块 VO 层 正 是 
2.5 开发 版 内 核 的 主要 目标 。 本 章 涵盖 了 2.6 版 内 核 中 所 有 新 的 块 VO 层 。 


14.1 剖析 一 个 块 设备 


块 设备 中 最 小 的 可 寻 址 单元 是 遍 区 。 遍 区 大 小 一 般 是 2 的 整数 倍 ， 而 最 常见 的 是 512 字 节 。 
遍 区 的 大 小 是 设备 的 物理 属性 ， 扇 区 是 所 有 块 设 备 的 基本 单元 一 一 块 设备 无 法 对 比 它 还 小 的 单元 
进行 寻 址 和 操作 ， 尽 管 许多 块 设备 能 够 一 次 对 多 个 扇 区 进行 操作 。 虽 然 大 多 数 块 设备 的 扇 区 大 小 
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都 是 512 字 节 ， 不 过 其 他 大 小 的 扇 区 也 很 常见 。 比 如 ， 很 多 CD-ROM 盘 的 扇 区 都 是 2KB 大 小 。 

因为 各 种 软件 的 用 途 不 同 ， 所 以 它们 都 会 用 到 自己 的 最 小 逻辑 可 寻 址 单元 一 一 块 。 块 是 文 
件 系统 的 一 种 抽象 一 一 只 能 基于 抉 来 访问 文件 系统 。 虽 然 物 理 磁 盘 寻 址 是 按照 扇 区 级 进行 的 ， 
但 是 内 核 执 行 的 所 有 磁盘 操作 都 是 按照 块 进行 的 。 由 于 扇 区 是 设备 的 最 小 可 寻 址 单元 ， 所 以 块 
不 能 比 扇 区 还 小 ， 只 能 数 倍 于 扇 区 大 小 。 另 外 ， 内 核 (对 有 扁 区 的 硬件 设备 ) 还 要 求 块 大 小 是 
.2 的 整数 倍 ， 而 且 不 能 超过 一 个 页 的 长 度 〈 请 看 第 12 章 和 第 19 章 ) 日 。 所 以 ， 对 块 大 小 的 最 终 
要 求 是 ， 必 须 是 扇 区 大 小 的 2 的 整数 倍 ， 并 且 要 小 于 页 面 大 小 。 所 以 通常 块 大 小 是 512 字 节 、1KB 
或 4KB。 

扇 区 和 块 还 有 一 些 不 同 的 叫 靶 ， 为 了 不 引起 混 请 ， 我 们 在 这 里 简要 介绍 一 下 它们 的 其 他 名 
称 。 扇 区 一 一 设备 的 最 小 寻 址 单元 ， 有 时 会 称 作 “ 硬 扁 区 ”或 “设备 块 ”; 同样 的 ， 块 一 一 文件 
系统 的 最 小 寻 址 单元 ， 有 时 会 称 作 “文件 块 ” 或 “LO 块 >。 在 这 一 章 里 ， 会 一 直 使 用 “ 遍 区 ”和 
“ 块 ” 这 两 个 术语 ， 但 你 还 是 应 该 记 住 它 们 的 这 些 别 名 。 图 14-1 是 遍 区 和 缓冲 区 之 间 的 关系 图 。 

至 少 相 对 于 硬盘 而 言 ， 另 外 一 些 术语 更 通用 一 一 如 徐 、 柱 面 以 及 磁头 。 这 些 表示 是 针对 某 些 
特定 的 块 设备 的 ， 大 多 数 情况 下 ， 对 用 户 空间 的 软件 是 不 可 见 的 。 遍 区 这 一 术语 之 所 以 对 内 核 重 
要 ， 是 因为 所 有 设备 的 IO 必须 以 扁 区 为 单位 进行 操作 。 以 此 类 推 ， 内 核 所 使 用 的 “ 块 ”这 一 高 
级 概念 就 是 建立 在 遍 区 之 上 的 。 





硬盘 


站 


从 扇 区 映射 到 块 
图 14-1 ” 遍 区 和 缓冲 区 之 间 的 关系 


14.2 缓冲 区 和 缓冲 区 头 


当 一 个 块 被 调 入 内 存 时 〈 也 就 是 说 ， 在 读 入 后 或 等 待 写 出 时 )， 它 要 存储 在 一 个 缓冲 区 中 。 
每 个 缓冲 区 与 一 个 块 对 应 ， 它 相当 于 是 磁盘 块 在 内 存 中 的 表示 。 前 面 提 到 过 ， 块 包含 一 个 或 多 个 
遍 区 ， 但 大 小 不 能 超过 一 个 页 面 ， 所 以 一 个 页 可 以 容纳 一 个 或 多 个 内 存 中 的 块 。 由 于 内 核 在 处 理 
数据 时 需要 一 些 相关 的 控制 信息 〈 比 如 块 属于 哪 一 个 块 设备 ， 块 对 应 于 哪个 缓冲 区 等 )， 所 以 每 
一 个 缓冲 区 都 有 一 个 对 应 的 描述 符 。 该 描述 符 用 buffer_ head 结构 体 表示 ， 称 作 缓 冲 区 头 ， 在 文 
件 <linuxbuffer head.h> 中 定义 ， 它 包含 了 内 核 操 作 缓 冲 区 所 需要 的 全 部 信息 。 


但 ”这 个 认为 的 限制 可 能 会 遗留 到 以 后 ， 但 是 强制 块 的 大 小 等 于 或 小 于 页 大 小 无 疑 简化 了 内 核 。 
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下 面 给 出 缓冲 区 头 结构 体 和 其 中 各 个 域 的 说 明 : 


struct buffer head { 





unsigned long b state; /* 缓冲 区 状态 标志 */ 
struct buffer head *b this page; /* 页 面 中 的 缓冲 区 */ 
struct page *b page; /* 存储 缓冲 区 的 页 面 */ 
sector t b blocknr; /* 起 始 块 号 */ 
size t b size; /* 映像 的 大 小 */ 
char *b data; /* 页 面 内 的 数据 指针 */ 
struct block device *b bdev; /* 相关 联 的 块 设备 */ 
bh end io t *b engd io; /* I/O 完成 方法 */ 
void *b private; /* io 完成 方法 */ 
struct list head b assoc buffers; /* 相关 的 映射 链表 */ 
struct address space *b assoc map; /* 相关 的 地 址 空间 */ 
atomic t b count; /* 缓冲 区 使 用 计数 */ 


}; 


b_state 域 表 示 缓 冲 区 的 状态 ， 可 以 是 表 14-1 中 一 种 标志 或 多 种 标志 的 组 


合 。 合 法 的 标志 


放 在 bh_state_bits 枚 举 中 ， 该 枚 举 在 <linux/buffer head.h> 中 定义 。 


表 14-1 bh_state 标志 


BH_Uptodate 该 缓冲 区 包含 可 用 数据 

BH_Dirty 该 缓冲 区 是 脏 的 (缓存 中 的 内 容 比 磁盘 中 的 块 内 容 新 ， 所 以 缓冲 区 内 容 必 须 被 写 回 磁盘 ) 
BH_Lock 该 缓冲 区 正在 被 IO 操作 使 用 ， 被 锁定 以 防 被 并 发 访问 

BH_Req 该 缓冲 区 有 LO 请 求 操作 

BH_Mapped 该 缓 钟 区 是 映射 厂 盘 块 的 可 用 缓冲 区 

BH_New 缓冲 区 是 通过 get_block() 刚刚 映射 的 ， 尚 且 不 能 访问 





BH _Async Read 
BH _Async write 


该 缓冲 区 正 通 过 end_buffer_async_read0 被 异步 IO 读 操 作 使 用 
该 缓冲 区 正 通过 end_buffer async_writeO) 被 异步 VO 写 操作 使 用 


BH._Delay 该 缓冲 区 尚未 和 磁盘 块 关联 

BH_Boundary 该 缓冲 区 处 于 连续 块 区 的 边界 一 一 下 一 个 块 不 再 连续 
BH_Write EIO 该 缓冲 区 在 写 的 时 候 遇 到 IO 错误 

BH_Ordered 顺序 写 


BH_Eopnotsupp 
BH_Unwritten 
BH_Quict 





该 缓冲 区 发 生 “ 不 被 支持 ”错误 
该 缓冲 区 在 硬盘 上 的 空间 已 被 申请 但 是 没有 实际 的 数据 写 出 
此 缓冲 区 禁止 错误 


bh_state_bits 列表 还 包含 了 一 个 特殊 标志 一 一 BH_PrivateStart， 该 标志 不 是 可 用 状态 标志 ， 使 


用 它 是 为 了 指明 可 被 其 他 代码 使 用 的 起 始 位 。 块 IO 层 不 会 使 用 BH_PrivateStart 或 更 高 的 位 。 那 么 
某 个 驱动 程序 希望 通过 b_state 域 存储 信息 时 就 可 以 安全 地 使 用 这 些 位 。 驱 动 程序 可 以 在 这 些 位 中 
定义 自己 的 状态 标志 ， 只 要 保证 自 定义 的 状态 标志 不 与 块 VO 层 的 专用 位 发 生 冲 突 就 可 以 了 。 

b_count 域 表 示 缓 冲 区 的 使 用 记 数 ， 可 通过 两 个 定义 在 文件 <linux/buffer head.h> 中 的 内 联 
函数 对 此 域 进行 增 减 。 
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static inline void get_bh(struct buffer head *bh) 
{ 
atomic inc(&bh->b count); 


} 


static inline void put bh(struct buffer head *bh) 
{ 


atomic dec(&bh->b count); 


} 


在 操作 缓冲 区 头 之 前 ， 应 该 先 使 用 get_bh() 函数 增加 缓冲 区 头 的 引用 计数 ， 确 保 该 缓冲 区 头 
不 会 再 被 分 配 出 去 ; 当 完 成 对 缓冲 区 头 的 操作 之 后 ， 还 必须 使 用 put_bh0 函数 减少 引用 计数 。 

与 缓冲 区 对 应 的 磁盘 物理 块 由 b_blocknr-th 域 索 引 ， 该 值 是 b_bdev 域 指 明 的 块 设备 中 的 逻 
辑 块 号 。 

与 缓冲 区 对 应 的 内 存 物理 页 由 b_page 域 表示 ， 另 外 ，b_data 域 直接 指向 相应 的 块 〈 它 位 于 
b_page 域 所 指明 的 页 面 中 的 某 个 位 置 上 )， 块 的 大 小 由 b_size 域 表 示 ， 所 以 块 在 内 存 中 的 起 始 位 
置 在 b_data 处 ， 结 束 位 置 在 (b_ data +b size) 处 。 

缓冲 区 头 的 目的 在 于 描述 磁盘 块 和 物理 内 存 缓冲 区 〈 在 特定 页 面 上 的 字 节 序列 ) 之 间 的 映射 
关系 。 这 个 结构 体 在 内 核 中 只 扮演 一 个 描述 符 的 角色 ， 说 明 从 缓冲 区 到 块 的 映射 关系 。 

在 2.6 内 核 以 前 ， 缓 冲 区 头 的 作用 比 现在 还 要 重要 。 因 为 缓冲 区 头 作为 内 核 中 的 VO 操作 单 
元 ， 不 仅仅 描述 了 从 磁盘 块 到 物理 内 存 的 映射 ， 而且 还 是 所 有 块 VO 操作 的 容器 。 可 是 ， 将 缓冲 
区 头 作 为 IO 操作 单元 带 来 了 两 个 商 端 。 首先 ， 缓 冲 区 头 是 一 个 很 大 且 不 易 控 制 的 数据 结构 体 
(现在 是 缩减 过 的 了 )， 而 且 缓冲 区 头 对 数据 的 操作 既 不 方便 也 不 清晰 。 对 内 核 来 说 ， 它 更 倾向 于 
操作 页 面 结构 ， 因 为 页 面 操 作 起 来 更 为 简便 ， 同 时 效率 也 高 。 使 用 一 个 巨大 的 缓冲 区 头 表示 每 一 
个 独立 的 缓冲 区 〔 可 能 比 页 面 小 ) 效率 低下 ， 所 以 在 2.6 版 本 中 ， 许 多 IO 操作 都 是 通过 内 核 直 
接 对 页 面 或 地 址 空间 进行 操作 来 完成 ， 不 再 使 用 缓冲 区 头 了 。 这 其 中 所 做 的 一 些 工作 会 在 第 16 
章 中 进行 讨论 ， 具 体 情况 请 参考 address_space 结构 和 pdflush 等 守护 进程 (daemon) 部 分 。 

缓冲 区 头 带 来 的 第 二 个 丙 端 是 : 它 仅 能 描述 单个 缓冲 区 ， 当 作为 所 有 LO 的 容器 使 用 时 ， 组 
冲 区 头 会 促使 内 核 把 对 大 块 数据 的 IO 操作 《〈 比 如 写 操作 ) 分 解 为 对 多 个 buffer head 结构 体 进 
行 操 作 。 这 样 做 必然 会 造成 不 必要 的 负担 和 空间 浪费 。 所 以 2.5 开发 版 内 核 的 主要 目标 就 是 为 块 
IO 操作 引入 一 种 新 型 、 灵 活 并 且 轻 量 级 的 容器 ， 也 就 是 14.3 节 要 介绍 的 bio 结构 体 。 


14.3 bio 结构 体 


目前 内 核 中 块 WO 操作 的 基本 容器 由 bio 结构 体 表示 ， 它 定义 在 文件 <linux/bio.h> 中 。 该 结 
构 体 代表 了 正在 现场 的 (活动 的 ) 以 片断 (segment) 链表 形式 组 织 的 块 VO 操作。 一 个 片段 是 
一 小 块 连续 的 内 存 缓冲 区 。 这 样 的 话 ， 就 不 需要 保证 单个 缓冲 区 一 定 要 连续 。 所 以 通过 用 片段 来 
描述 缓冲 区 ， 即 使 一 个 缓冲 区 分 散在 内 存 的 多 个 位 置 上 ，bio 结构 体 也 能 对 内 核 保 证 VO 操作 的 
执行 。 像 这 样 的 向 量 VO 就 是 所 谓 的 聚 散 VO。 

bio 结构 体 定义 于 <linux/bio.h> 中 ， 下 面 给 出 bio 结构 体 和 各 个 域 的 描述 。 
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struct bio { 


sector t+ bi sector; /* 磁盘 上 相关 的 扁 区 */ 
struct bio *bi next; /* 请 求 链表 */ 

struct block device *bi_bdev; /* 相关 的 块 设备 */ 

unsigned long bi flags; /* 状态 和 命令 标志 */ 
unsigned long bi_ rw; /* 读 还 是 写 */ 

unsigned short bi vent; /* bio_vecs 偏 移 的 个 数 */ 
unsigned short bi idx; /* bio_io_vect 的 当前 索引 */ 
unsigned short bi phys._segments; /* 结合 后 的 片断 数目 */ 
unsigned int bi size; /* I/O 计 数 */ 

unsigned int bi seg front size; /* 第 一 个 可 合并 的 段 大 小 */ 
unsigned int bi seg back size; /* 最 后 一 个 可 合并 的 段 大 小 */ 
unsigned int bi max vecs; /* bio_vecs 数目 上 限 */ 
unsigned int bi comp cpu; /* 结束 CPU*/ 

atomic t bi cnt; /* 使 用 计数 */ 

struct bio vec *bi io vec; /* bio vecs 链表 */ 

bio end io 上 *bi end io; /* I/O 完成 方法 */ 

void *bi_ private; /* 拥有 者 的 私有 方法 */ 

bio destructor t *bi destructor; /* 撤销 方法 */ 

struct bio vec bi inline vecs[0]; /* 内 嵌 bio 向 量 */ 


}; 

使 用 bio 结构 体 的 目的 主要 是 代表 正在 现场 执行 的 IO 操作 ， 所 以 该 结构 体 中 的 主要 域 都 是 
用 来 管理 相关 信息 的 ， 其 中 最 重要 的 几 个 域 是 bi io vecs、bi vcnt 和 bi idx。 图 14-2 显示 了 bio 
结构 体 及 其 他 结构 体 之 间 的 关系 。 


|bijio vee \ bi_idx 





bio_vec 结 构 体 链表 ， 总 数 为 bio_vent 
vec |bio_vec | vec bio_vec 


SR a 块 UO 操 作 中 使 用 的 页 面 结构 体 


图 14-2 bio 结构 体 、bio_vec 结构 体 和 page 结构 体 之 间 的 关系 
14.3.1 MO 向 量 


bi_io_vec 域 指向 一 个 bio_vec 结构 体 数组 ， 该 结构 体 链表 包含 了 一 个 特定 IO 操作 所 需要 使 
用 到 的 所 有 片段 。 每 个 bio_vec 结构 都 是 一 个 形式 为 <page, offset len> 的 向 量 ， 它 描述 的 是 一 个 
特定 的 片段 : 片段 所 在 的 物理 页 、 块 在 物理 页 中 的 偏 移 位 置 、 从 给 定 偏 移 量 开始 的 块 长 度 。 整 个 
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bio_io_vec 结构 体 数组 表示 了 一 个 完整 的 缓冲 区 。bio_vec 结构 定义 在 <linux/bio.h> 文件 中 : 


struct bio vec { 
/* 指向 这 个 缓冲 区 所 驻 留 的 物理 页 */ 


struct page *bv_ Page; 


/* 这 个 缓冲 区 以 字 节 为 单位 的 大 小 */ 


unsigned int bv_len; 


/* 缓冲 区 所 驻 留 的 页 中 以 字 节 为 单位 的 偏 移 量 */ 
unsigned int bv_ offset; 

}3 

在 每 个 给 定 的 块 VO 操作 中 ，bi_vcnt 域 用 来 描述 bi_io_vec 所 指向 的 vio_vec 数组 中 的 向 量 
数目 。 当 块 VO 操作 执行 完毕 后 ，bi_idx 域 指向 数组 的 当前 索引 。 

总 而 言 之 ， 每 一 个 块 IO 请 求 都 通过 一 个 bio 结构 体 表示 。 每 个 请 求 包含 一 个 或 多 个 块 ， 这 
些 块 存储 在 bio_vec 结构 体 数组 中 。 这 些 结构 体 描述 了 每 个 片段 在 物理 页 中 的 实际 位 置 ， 并 且 像 
向 量 一 样 被 组 织 在 一 起 。LO 操作 的 第 一 个 片段 由 b_io_vec 结构 体 所 指向 ， 其 他 的 片段 在 其 后 依 
次 放置 ， 共 有 bi_vcnt 个 片段 。 当 块 VO 层 开 始 执行 请 求 、 需 要 使 用 各 个 片段 时 ，bi_idx 域 会 不 
断 更 新 ， 从 而 总 指向 当前 片段 。 

bi_idx 域 指向 数组 中 的 当前 bio_vec 片段 ， 块 IO 层 通 过 它 可 以 跟踪 块 VO 操作 的 完成 进度 。 
但 该 域 更 重要 的 作用 在 于 分 割 bio 结构 体 。 像 元 余 廉 价 磁盘 阵列 (RAID， 出 于 提高 性 能 和 可 靠 性 
的 目的 ， 将 单个 磁盘 的 卷 扩展 到 多 个 磁盘 上 〉 这 样 的 驱动 器 可 以 把 单独 的 bio 结构 体 〈 原 本 是 为 
单个 设备 使 用 准备 的 )， 分 割 到 RAID 阵列 中 的 各 个 硬盘 上 去 。RAID 设备 驱动 只 需要 拷贝 这 个 
bio 结构 体 ， 再 把 bi_idx 域 设置 为 每 个 独立 硬盘 操作 时 需要 的 位 置 就 可 以 了 。 

bi_cnt 域 记 录 bio 结构 体 的 使 用 计数 ， 如 果 该 域 值 减 为 0， 就 应 该 撤销 该 bio 结构 体 ， 并 释 
放 它 占用 的 内 存 。 通 过 下 面 两 个 函数 管理 使 用 计数 。 


void bio get (struct bio *bio) 
void bio put(struct bio *bio) 


前 者 增加 使 用 计数 ， 后 者 减少 使 用 计数 (如 果 计 数 减 到 0， 则 撤销 bio 结构 体 )。 在 操作 正 
在 活动 的 bio 结构 体 时 ， 一 定 要 首先 增加 它 的 使 用 计数 ， 以 免 在 操作 过 程 中 该 bio 结构 体 被 释 
放 ; 相反 ， 在 操作 完毕 后 ， 要 减少 使 用 计数 。 

最 后 要 说 明 的 是 bi_private 域 ， 这 是 一 个 属于 拥有 者 (也 就 是 创建 者 ) 的 私有 域 ， 只 有 创建 
了 bio 结构 的 拥有 者 可 以 读 写 该 域 。 


14.3.2 ”新 老 方 法 对 比 


缓冲 区 头 和 新 的 bio 结构 体 之 间 存 在 显著 差别 。bio 结构 体 代表 的 是 1O 操作 ， 它 可 以 包括 
内 存 中 的 一 个 或 多 个 页 ; 而 另 一 方面 ，buffer_head 结构 体 代 表 的 是 一 个 缓冲 区 ， 它 描述 的 仅仅 是 
磁盘 中 的 一 个 块 。 因 为 缓冲 区 头 关 联 的 是 单独 页 中 的 单独 磁盘 块 ， 所 以 它 可 能 会 引起 不 必要 的 分 
割 ， 将 请 求 按 块 为 单位 划分 ， 只 能 靠 以 后 才能 再 重新 组 合 。 由 于 bio 结构 体 是 轻 量 级 的 ， 它 描述 
的 块 可 以 不 需要 连续 存储 区 ， 并 且 不 需要 分 割 IO 操作 。 
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利用 bio 结构 体 代 替 buffer bead 结构 体 还 有 以 下 好 处 : 

“bio 结构 体 很 容易 处 理 高 端 内 存 ， 因 为 它 处 理 的 是 物理 页 而 不 是 直接 指针 。 

“bio 结构 体 既 可 以 代表 普通 页 WO， 同 时 也 可 以 代表 直接 WO 指 那 些 不 通过 页 高 速 缓 存 的 

LO 操作 一 一 请 参考 第 16 章 中 对 页 高 速 缓 存 的 讨论 )。 

* bio 结构 体 便于 执行 分 散 一 集中 矢量 化 的 ) 块 WO 操作 ， 操 作 中 的 数据 可 取 自 多 个 物理 页 面 。 

“ bio 结构 体 相 比 缓冲 区 头 属于 轻 量 级 的 结构 体 。 因 为 它 只 需要 包含 块 TO 操作 所 需 的 信息 就 

行 了 ， 不 用 包含 与 缓冲 区 本 身 相关 的 不 必要 信息 。 

但 是 还 是 需要 缓冲 区 头 这 个 概念 ， 毕 竞 它 还 负责 描述 磁盘 块 到 页 面 的 映射 。bio 结构 体 不 包 
含 任何 和 缓冲 区 相关 的 状态 信息 一 一 它 仅 仅 是 一 个 矢量 数组 ， 描 述 一 个 或 多 个 单独 块 VO 操作 
的 数据 片段 和 相关 信息 。 在 当前 设置 中 ， 当 bio 结构 体 描述 当前 正在 使 用 的 IO 操作 时 ，buffer 
head 结构 体 仍 然 需 要 包含 缓冲 区 信息 。 内 核 通 过 这 两 种 结构 分 别 保存 各 自 的 信息 ， 可 以 保证 每 
种 结构 所 含 的 信息 量 尽 可 能 地 少 。 


14.4 ”请 求 队列 


块 设备 将 它们 挂 起 的 块 IO 请 求 保 存在 请 求 队列 中 ， 该 队列 由 reques_queue 结构 体 表示 ， 定 
义 在 文件 <linux/blkdev.h> 中 ， 包 含 一 个 双向 请 求 链表 以 及 相关 控制 信息 。 通 过 内 核 中 像 文件 系 
统 这 样 高 层 的 代码 将 请 求 加 入 到 队列 中 。 请 求 队列 只 要 不 为 空 ， 队 列 对 应 的 块 设备 驱动 程序 就 会 
从 队列 头 获 取 请 求 ， 然 后 将 其 送 入 对 应 的 块 设备 上 去 。 请 求 队 列表 中 的 每 一 项 都 是 一 个 单独 的 请 
求 ， 由 reques 结构 体 表示 。 

队列 中 的 请 求 由 结构 体 request 表示 ， 它 定义 在 文件 <linux/blkdev.h> 中 。 因 为 一 个 请 求 可 能 
要 操作 多 个 连续 的 磁盘 块 ， 所 以 每 个 请 求 可 以 由 多 个 bio 结构 体 组 成 。 注 意 ， 虽 然 磁盘 上 的 块 必 
须 连续 ， 但 是 在 内 存 中 这 些 块 并 不 一 定 要 连续 一 一 每 个 bio 结构 体 都 可 以 描述 多 个 片段 (回忆 一 
下 ， 片 段 是 内 存 中 连续 的 小 区 域 )， 而 每 个 请 求 也 可 以 包含 多 个 bio 结构 体 。 


14.5 ”MO 调度 程序 


如 果 简 单 地 以 内 核 产生 请 求 的 次 序 直 接 将 请 求 发 向 块 设备 的 话 ， 性 能 肯定 让 人 难以 接受 。 磁 
盘 寻 址 是 整个 计算 机 中 最 慢 的 操作 之 一 ， 每 一 次 寻 址 〈 定 位 硬盘 磁头 到 特定 块 上 的 某 个 位 置 ) 需 
要 花费 不 少时 间 。 所 以 尽量 缩短 寻 址 时 间 无 疑 是 提高 系统 性 能 的 关键 。 

为 了 优化 寻 址 操作 ， 内 核 既 不 会 简单 地 按 请 求 接收 次 序 ， 也 不 会 立即 将 其 提交 给 磁盘 。 相 
反 ， 它 会 在 提交 前 ， 先 执行 名 为 合并 与 排序 的 预 操作 ， 这 种 预 操作 可 以 极 大 地 提高 系统 的 整体 性 
能 9。 在 内 核 中 负责 提交 IO 请 求 的 子 系统 称 为 IO 调度 程序 。 

VO 调度 程序 将 磁盘 IO 资源 分 配给 系统 中 所 有 挂 起 的 块 IO 请 求 。 具 体 地 说 ， 这 种 资源 分 
配 是 通过 将 请 求 队列 中 挂 起 的 请 求 合 并 和 排序 来 完成 的 。 注 意 不 要 将 IO 调度 程序 和 进程 调度 程 
序 〈 请 看 第 4 章 ) 混淆 。 进 程 调度 程序 的 作用 是 将 处 理 器 资源 分 配给 系统 中 的 运行 进程 。 这 两 种 


日 这 一 点 需要 强调 。 如 果 一 个 系统 没有 这 些 功 能 ， 或 者 这 些 功能 实现 得 很 差 ， 那么 即使 是 数量 不 大 的 块 IO 操 
作 ， 执 行 性 能 也 会 很 糟糕 。 
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子 系统 看 起 来 非常 相似 ， 但 并 不 相同 。 进 程 调度 程序 和 IO 调度 程序 都 是 将 一 个 资源 虚拟 给 多 个 
对 象 ， 对 进程 调度 程序 来 说 ， 处 理 器 被 虚拟 并 被 系统 中 的 运行 进程 共享 。 这 种 虚拟 提供 给 用 户 的 
就 是 多 任务 和 分 时 操作 系统 ， 像 Unix 系统 。 相 反 ，LO 调度 程序 虚拟 块 设备 给 多 个 磁盘 请 求 ， 以 
便 降低 磁盘 寻 址 时 间 ， 确 保 磁盘 性 能 的 最 优化 。 


14.5.1 WO 调度 程序 的 工作 


LO 调度 程序 的 工作 是 管理 块 设备 的 请 求 队列 。 它 决定 队列 中 的 请 求 排列 顺序 以 及 在 什么 时 
刻 派 发 请 求 到 块 设备 。 这 样 做 有 利于 减少 磁盘 寻 址 时 间 ， 从 而 提高 全 局 吞吐 量 。 注 意 ， 全 局 这 个 
定语 很 重要 ， 坦 率 地 讲 ， 一 个 IO 调度 器 可 能 为 了 提高 系统 整体 性 能 ， 而 对 某 些 请 求 不 公 。 

LO 调度 程序 通过 两 种 方法 减少 磁盘 寻 址 时 间 : 合并 与 排序 。 合 并 指 将 两 个 或 多 个 请 求 结合 
成 一 个 新 请 求 。 考 虑 一 下 这 种 情况 ， 文 件 系 统 提 交 请 求 到 请 求 队列 一 一 从 文件 中 读 取 一 个 数据 
区 《〈 当 然 ， 最 终 所 有 的 操作 都 是 针对 扇 区 和 块 进行 的 ， 而 不 是 文件 ， 还 假定 请 求 的 块 都 是 来 自 文 
件 块 )， 如 果 这 时 队列 中 已 经 存在 一 个 请 求 ， 它 访问 的 磁盘 扇 区 和 当前 请 求 访问 的 磁盘 扇 区 相 邻 
〈 比 如 ， 同 一 个 文件 中 早 些 时 候 被 读 取 的 数据 区 )， 那 么 这 两 个 请 求 就 可 以 合并 为 一 个 对 单个 和 多 
个 相 邻 磁盘 遍 区 操作 的 新 请 求 。 通 过 合并 请 求 ，IO 调度 程序 将 多 次 请 求 的 开销 压缩 成 一 次 请 求 
的 开销 。 更 重要 的 是 ， 请 求 合并 后 只 需要 传递 给 磁盘 一 条 寻 址 命令 ， 就 可 以 访问 到 请 求 合并 前 必 
须 多 次 寻 址 才能 访问 完 的 磁盘 区 域 了 ， 因 此 合并 请 求 显然 能 减少 系统 开销 和 磁盘 寻 址 次 数 。 

现在 ， 假 设 在 读 请 求 被 提交 给 请 求 队列 的 时 候 ， 队 列 中 并 不 需要 操作 相 邻 扇 区 的 其 他 请 求 ， 此 
时 就 无 法 将 当前 请 求 与 其 他 请 求 合并 ， 当 然 ， 可 以 将 其 插入 请 求 队列 的 尾部 。 但 是 如 果 有 其 他 请 求 
需要 操作 磁盘 上 类 似 的 位 置 呢 ?如 果 存 在 一 个 请 求 ， 它 要 操作 的 磁盘 扁 区 位 置 与 当前 请 求 比较 接近 ， 
那么 是 不 是 该 让 这 两 个 请 求 在 请 求 队列 上 也 相 邻 呢 ? 事实 上 ，IO 调度 程序 的 确 是 这 样 处 理 上述 情况 
的 ， 整 个 请 求 队列 将 按 扇 区 增长 方向 有 序 排 列 。 使 所 有 请 求 按 硬 盘 上 扇 区 的 排列 顺序 有 序 排列 〈 尽 
可 能 的 ) 的 目的 不 仅 是 为 了 缩短 单独 一 次 请 求 的 寻 址 时 间 ， 更 重要 的 优化 在 于 ， 通 过 保持 磁盘 头 以 
直线 方向 移动 ， 缩 短 了 所 有 请 求 的 磁盘 寻 址 时 间 。 该 排序 算法 类 似 于 电梯 调度 一 一 电梯 不 能 随意 地 
从 一 层 跳 到 另 一 层 ， 它 应 该 向 一 个 方向 移动 ， 当 抵达 了 同一 方向 上 的 最 后 一 层 后 ， 再 掉头 向 另 一 个 
方向 移动 。 出 于 这 种 相似 性 ， 所 以 IO 调度 程序 〈 或 这 种 排序 算法 ) 称 作 电梯 调度 。 


14.5.2 Linus 电梯 


下 面 看 看 Linux 中 实际 使 用 的 IO 调度 程序 。 我 们 看 到 的 第 一 个 IO 调度 程序 称 为 Linus 电 
梯 ( 没 错 ，Linus 确实 是 用 他 的 名 字 命 名 了 这 个 电梯 )。 在 2.4 版 内 核 中 ，Linus 电梯 是 默认 的 IO 
调度 程序 。 虽 然后 来 在 2.6 版 内 核 中 它 被 另外 两 种 调度 程序 取代 了 ， 但 是 由 于 这 个 电梯 比 后 来 的 
调度 程序 简单 ， 而 且 它 们 执行 的 许多 功能 都 相似 ， 所 以 它 可 以 作为 一 个 优秀 的 入 门 介 绍 程 序 。 

Linus 电梯 能 执行 合并 与 排序 预 处 理 。 当 有 新 的 请 求 加 入 队列 时 ， 它 首先 会 检查 其 他 每 一 个 
挂 起 的 请 求 是 否 可 以 和 新 请 求 合并 。Linus 电梯 IO 调度 程序 可 以 执行 向 前 和 向 后 合并 ， 合 并 类 
型 描述 的 是 请 求 向 前 面 还 是 向 后 面 ， 这 一 点 和 已 有 请 求 相连 。 如 果 新 请 求 正好 连 在 一 个 现存 的 请 
求 前 ， 就 是 向 前 合并 ; 相反 如 果 新 请 求 直 接连 在 一 个 现存 的 请 求 后 ， 就 是 向 后 合并 。 鉴 于 文件 的 
分 布 〈 通 常 以 扇 区 号 的 增长 表现 ) 特点 和 了 LO 操作 执行 方式 具有 典型 性 〈 一 般 都 是 从 头 读 向 尾 ， 
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很 少 从 反方 向 读 )， 所 以 向 前 合并 相 比 向 后 合并 要 少 得 多 ， 但 是 Linus 电梯 还 是 会 对 两 种 合并 类 
型 都 进行 检查 。 

如 果 合 并 尝试 失败 ， 那 么 就 需要 寻找 可 能 的 插入 点 〈 新 请 求 在 队列 中 的 位 置 必 须 符 合 请 求 以 
扇 区 方向 有 序 排 序 的 原则 )。 如 果 找 到 ， 新 请 求 将 被 插入 到 该 点 ; 如 果 没 有 合适 的 位 置 ， 那 么 新 
请 求 就 被 加 入 到 队列 尾部 。 另 外 ， 如 果 发 现 队列 中 有 驻 留 时 间 过 长 的 请 求 ， 那 么 新 请 求 也 将 被 加 
入 到 队列 尾部 ， 即 使 插入 后 还 要 排序 。 这 样 做 是 为 了 避免 由 于 访问 相近 磁盘 位 置 的 请 求 太 多 ， 从 
而 造成 访问 磁盘 其 他 位 置 的 请 求 难以 得 到 执行 机 会 这 一 问题 。 不 幸 的 是 ， 这 种 “年 龄 ”检测 方法 
并 不 很 有 效 ， 因 为 它 并 非 是 给 等 待 了 一 段 时 间 的 请 求 提供 实质 性 服务 ， 它 仅仅 是 在 经 过 了 一 定时 
间 后 停止 插入 一 排序 请 求 ， 这 改善 了 等 待 时 间 但 最 终 还 是 会 导致 请 求 饥饿 现象 的 发 生 ， 所 以 这 
是 一 个 2.4 内 核 VO 调度 程序 中 必须 要 修改 的 缺陷 。 

总 而 言 之 ， 当 一 个 请 求 加 入 到 队列 中 时 ， 有 可 能 发 生 四 种 操作 ， 它 们 依次 是 : 

1) 如 果 队 列 中 已 存在 一 个 对 相 邻 磁盘 遍 区 操作 的 请 求 ， 那 么 新 请 求 将 和 这 个 已 经 存在 的 请 
求 合并 成 一 个 请 求 。 

2) 如 果 队 列 中 存在 一 个 驻 留 时 间 过 长 的 请 求 ， 那 么 新 请 求 将 被 插入 到 队列 尾部 ， 以 防止 其 
他 人 旧 的 请 求 饥饿 发 生 。 

3) 如 果 队 列 中 以 扁 区 方向 为 序 存在 合适 的 插入 位 置 ， 那 么 新 的 请 求 将 被 插入 到 该 位 置 ， 保 
证 队列 中 的 请 求 是 以 被 访问 磁盘 物理 位 置 为 序 进行 排列 的 。 

4) 如 果 队 列 中 不 存在 合适 的 请 求 插入 位 置 ， 请 求 将 被 插入 到 队列 尾部 。 


14.5.3 ”最 终 期 限 I/O 调度 程序 


最 终 期 限 (deadline) LO 调度 程序 是 为 了 解决 Linus 电梯 所 带 来 的 饥饿 问题 而 提出 的 。 出 于 
减少 磁盘 寻 址 时 间 的 考虑 ， 对 某 个 磁盘 区 域 上 的 繁重 操作 ， 无 疑 会 使 得 磁盘 其 他 位 置 上 的 操作 请 
求 得 不 到 运行 机 会 。 实 际 上 ， 一 个 对 磁盘 同一 位 置 操作 的 请 求 流 可 以 造成 较 远 位 置 的 其 他 请 求 永 
远 得 不 到 运行 机 会 ， 这 是 一 种 很 不 公平 的 饥饿 现象 。 

更 糟糕 的 是 ， 普 通 的 请 求 饥饿 还 会 带 来 名 为 写 一 饥 钞 一 读 (writes-starving-reads ) 这 种 特殊 
问题 。 写 操作 通常 是 在 内 核 有 空 时 才 将 请 求 提交 给 磁盘 的 ， 写 操作 完全 和 提交 它 的 应 用 程序 异步 
执行 ; 读 操作 则 恰恰 相反 ， 通 常 当 应 用 程序 提交 一 个 读 请 求 时 ， 应 用 程序 会 发 生 堵 塞 直到 读 请 求 
被 满足 ， 也 就 是 说 ， 读 操作 是 和 提交 它 的 应 用 程序 同步 执行 的 。 所 以 虽然 写 反 应 时 间 (提交 写 请 
求 花费 的 时 间 〉 不 会 给 系统 响应 速度 造成 很 大 影响 ， 但 是 读 响 应 时 间 〈 提 交 读 请 求 花费 的 时 间 ) 
对 系统 响应 时 间 来 说 却 非 同 小 可 。 虽 然 写 请 求 时 间 对 应 用 程序 性 能 9 带 来 的 影响 不 大 ， 但 是 应 用 
程序 却 必须 等 待 读 请 求 完 成 后 才能 运行 其 他 程序 ， 所 以 读 操作 响应 时 间 对 系统 的 性 能 非常 重要 。 

问题 还 可 能 更 严重 ， 这 是 因为 读 请 求 往往 会 相互 依靠 。 比 如 ， 要 读 大 量 的 文件 ，. 每 次 都 是 针 
对 一 块 很 小 的 缓冲 区 数据 区 进行 读 操作 ， 而 应 用 程序 只 有 将 上 一 个 数据 区 从 磁盘 中 读 取 并 返回 之 
后 ， 才 能 继续 读 取 下 一 个 数据 区 〈 或 下 一 个 文件 )。 粳 糕 的 是 ， 不 管 是 读 还 是 写 ， 二 者 都 需要 读 


”不 过 ， 我 们 还 是 不 打算 把 写 请 求 无 限期 地 延迟 下 去 ， 因 为 内 核 想 确保 数据 最 终 能 写 到 磁盘 ， 以 避免 在 内 存 组 
冲 区 中 的 数据 变 得 越 来 越 多 或 者 太 陈旧 。 
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取 像 索引 节点 这 样 的 元 数据 。 从 磁盘 进一步 读 取 这 些 块 会 使 TO 操作 串 行 化 。 所 以 如 果 每 一 次 请 
求 都 发 生 饥 饿 现象 ， 那 么 对 读 取 文件 的 应 用 程序 来 说 ， 全 部 延迟 加 起 来 会 造成 过 长 的 等 待 时 间 ， 
让 用 户 无 法 忍受 。 综 上 所 述 ， 读 操作 具有 同步 性 ， 并 且 彼 此 之 间 往 往 相互 依靠 ,所 以 读 请 求 响 
应 时 间 直 接 影响 系统 性 能 ， 因 此 2.6 版 本 内 核 新 引入 了 最 后 期 限 IO 调度 程序 来 减少 请 求 饥饿 现 
象 ， 特 别 是 读 请 求 饥饿 现象 。 

和 注意， 减少 请 求 饥 饿 必须 以 降低 全 局 吞吐 量 为 代价 。Linus 电梯 调度 程序 虽然 也 做 了 这 样 的 
折 中 ， 但 显然 不 够 一 一 Linus 电梯 可 以 提供 更 好 的 系统 吞吐 量 〈 通 过 最 小 化 寻 址 )， 可 是 它 总 按照 
扇 区 顺序 将 请 求 插 和 人 到 队列 ， 从 不 检查 驻 留 时 间 过 长 的 请 求 ， 更 不 会 将 请 求 插 入 到 列队 尾部 ， 所 
以 它 虽 然 能 让 寻 址 时 间 最 短 ， 但 是 却 会 带 来 同样 不 可 取 的 请 求 饥饿 问题 。 为 了 避免 饥饿 同时 提供 
良好 的 全 局 吞吐 量 ， 最 后 期 限 IO 调度 程序 做 了 更 多 的 努力 。 既 要 尽量 提高 全 局 吞吐 量 ， 又 要 使 
请 求 得 到 公平 处 理 ， 这 是 很 困难 的 。 

在 最 后 期 限 IO 调度 程序 中 ， 每 个 请 求 都 有 一 个 超时 时 间 。 软 认 情 况 下 ， 读 请 求 的 超时 时 间 
是 500ms， 写 请 求 的 超时 时 间 是 5s。 最 后 期 限 IO 调度 请 求 类 似 于 Linus 电梯 ， 也 以 磁盘 物理 位 
置 为 次 序 维护 请 求 队 列 ， 这 个 队列 称 为 排序 队列 。 当 一 个 新 请 求 递 交 给 排序 队列 时 ， 最 后 期 限 I/ 
O 调度 程序 在 执行 合并 和 插入 请 求 时 类 似 于 Linus 电梯 人 ， 但 是 最 后 期 限 IO 调度 程序 同时 也 会 
以 请 求 类 型 为 依据 将 它们 插入 到 额外 队列 中 。 读 请 求 按 次 序 被 插入 到 特定 的 读 FIFO 队列 中 ， 写 
请 求 被 插入 到 特定 的 写 FIFO 队列 中 。 虽 然 普通 队列 以 磁盘 扇 区 为 序 进行 排列 ， 但 是 这 些 队列 是 
以 FEIFO《〈 很 有 效 ， 以 时 间 为 基准 排序 ) 形式 组 织 的 ， 结 果 新 队列 总 是 被 加 入 到 队列 尾部 。 对 于 
普通 操作 来 说 ， 最 后 期 限 IO 调度 程序 将 请 求 从 排序 队列 的 头 部 取 下 ， 再 推 入 到 派发 队列 中 ， 派 
发 队列 然后 将 请 求 提交 给 磁盘 驱动 ， 从 而 保证 了 最 小 化 的 请 求 寻 址 。 

如 果 在 写 FIFO 队列 头 ， 或 是 在 读 FIFO 队列 头 的 请 求 超时 (也 就 是 ， 当 前 时 间 超 过 了 请 求 
指定 的 超时 时 间 )， 那 么 最 后 期 限 VO 调度 程序 便 从 FIFO 队列 中 提取 请 求 进行 服务 。 依 靠 这 种 
方法 ， 最 后 期 限 IO 调度 程序 试图 保证 不 会 发 生 有 请 求 在 明显 超期 的 情况 下 仍 不 能 得 到 服务 的 现 
象 ， 参 见 图 14-3。 





读 请 求 FIFO 队 列 、 、 磁盘 
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成 
排序 R 列  、 _/ 


图 14-3 ”最 后 期 限 IO 调度 程序 的 三 个 队列 


注意 ， 最 后 期 限 IO 调度 算法 并 不 能 严格 保证 请 求 的 响应 时 间 ， 但 是 通常 情况 下 ， 可 以 在 请 
求 超时 或 超时 前 提交 和 执行 ， 以 防止 请 求 饥饿 现象 的 发 生 。 由 于 读 请 求 给 定 的 超时 时 间 要 比 写 请 
求 短 许多 ， 所 以 最 后 期 限 VO 调度 器 也 确保 了 写 请 求 不 会 因为 堵塞 读 请 求 而 使 读 请 求 发 生 饥饿 。 
这 种 对 读 操 作 的 照顾 确保 了 读 响应 时 间 尽 可 能 短 。 





日 ”最 后 期 限 IO 排序 执行 向 前 合并 是 一 个 可 选项 。 因 为 读 操作 请 求 通常 很 少 需要 向 前 合并 ， 所 以 向 前 合并 通常 不 
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最 后 期 限 LO 调度 程序 的 实现 在 文件 block/deadline-iosched.c 中 。 


14.5.4 预测 IO 调度 程序 


虽然 最 后 期 限 IO 调度 程序 为 降低 读 操作 响应 时 间 做 了 许多 工作 ， 但 是 它 同 时 也 降低 了 系统 
吞吐 量 。 假 设 一 个 系统 处 于 很 繁重 的 写 操作 期 间 ， 每 次 提交 读 请 求 ，LO 调度 程序 都 会 迅速 处 理 
读 请 求 ， 所 以 磁盘 首先 为 读 操作 进行 寻 址 ， 热 行 读 操作 ， 然 后 返回 再 寻 址 进行 写 操作 ， 并 且 对 每 
个 读 请 求 都 重复 这 个 过 程 。 这 种 做 法 对 读 请 求 来 说 是 件 好 事 ， 但 是 两 次 寻 址 操作 〔〈 一 次 对 读 操 作 
定位 ， 一 次 返回 来 进行 写 操作 定位 〉 却 损害 了 系统 全 局 吞吐 量 。 预 测 〈Anticipatory) VO 调度 程 
序 的 目标 就 是 在 保持 良好 的 读 响应 的 同时 也 能 提供 良好 的 全 局 吞吐 量 。 

预测 VO 调度 的 基础 仍然 是 最 后 期 限 IO 调度 程序 ， 所 以 它们 有 很 多 相同 之 处 。 预 测 IO 
调度 程序 也 实现 了 三 个 队列 〈 加 上 一 个 派发 队列 )， 并 为 每 个 请 求 设 置 了 超时 时 间 ， 这 点 与 最 
后 期 限 IO 调度 程序 一 样 。 预 测 IO 调度 程序 最 主要 的 改进 是 它 增 加 了 预测 启发 (anticipation- 
heuristic) 能力 。 

预测 IO 调度 试图 减少 在 进行 VO 操作 期 间 ， 处 理 新 到 的 读 请 求 所 带 来 的 寻 址 数量 。 和 最 后 
期 限 IO 调度 程序 一 样 ， 读 请 求 通常 会 在 超时 前 得 到 处 理 ， 但 是 预测 IO 调度 程序 的 不 同 之 处 在 
于 ， 请 求 提 交 后 并 不 直接 返回 处 理 其 他 请 求 ， 而 是 会 有 意 空闲 片刻 《实际 空闲 时 间 可 以 设置 ， 默 
认为 6ms)。 这 几 ms， 对 应 用 程序 来 说 是 个 提交 其 他 读 请 求 的 好 机 会 一 一 任何 对 相 邻 磁盘 位 置 操 
作 的 请 求 都 会 立刻 得 到 处 理 。 在 等 待 时 间 结 束 后 ， 预 测 VO 调度 程序 重新 返回 原来 的 位 置 ， 继 续 
执行 以 前 剩 下 的 请 求 。 

要 注意 ， 如 果 等 待 可 以 减少 读 请 求 所 带 来 的 向 后 再 向 前 (back-and-forth) 寻 址 操作 ， 那 么 
完全 值得 花 一 些 时 间 来 等 待 更 多 的 请 求 ; 如 果 一 个 相 邻 的 IO 请 求 在 等 待 期 到 来 ， 那 么 VO 调度 
程序 可 以 节省 两 次 寻 址 操作 。 如 果 存 在 愈 来 愈 多 的 访问 同样 区 域 的 读 请 求 到 来 ， 那 么 片刻 等 待 无 
疑 会 避免 大 量 的 寻 址 操作 。 

当然 ， 如 果 没 有 LO 请 求 在 等 待 期 到 来 ， 那 么 预测 IO 调度 程序 会 给 系统 性 能 带 来 轻微 的 损 
失 ， 浪费 掉 几 ms。 预测 IO 调度 程序 所 能 带 来 的 优势 取决 于 能 否 正确 预测 应 用 程序 和 文件 系统 
的 行为 。 这 种 预测 依靠 一 系列 的 启发 和 统计 工作 。 预 测 IO 调度 程序 跟踪 并 且 统 计 每 个 应 用 程序 
块 VO 操作 的 习惯 行为 ， 以 便 正确 预测 应 用 程序 的 未 来 行为 。 如 果 预 测 准 确 率 足够 高 ， 那 么 预测 
调度 程序 便 可 以 大 大 减少 服务 读 请 求 所 需 的 寻 址 开销 ， 而 且 同 时 仍 能 满足 请 求 所 需要 的 系统 响应 
时 间 要 求 。 这 样 的 话 ， 预 负 IO 调度 程序 既 减 少 了 读 响 应 时 间 ， 又 能 减少 寻 址 次 数 和 时 间 ， 所 以 
说 它 既 缩短 了 系统 响应 时 间 ， 又 提高 了 系统 吞吐 量 。 

预测 IO 调度 程序 的 实现 在 文件 内 核 源 代码 树 的 block/as-iosched.c 中 ， 它 是 Linux 内 核 中 缺 
省 的 IO 调度 程序 ， 对 大 多 数 工 作 负 荷 来 说 都 执行 良好 ， 对 服务 器 也 是 理想 的 。 不 过 ， 在 某 些 非 常 
见 而 又 有 严格 工作 负荷 的 服务 器 〈 包 括 数据 库 挖掘 服务 器 ) 上 ， 这 个 调度 程序 执行 的 效果 不 好 。 


14.5.5 ”完全 公正 的 排队 MO 调度 程序 


完全 公正 的 排队 IO 调度 程序 ( Complete Fair Queuing ，CFQ) 是 为 专 有 工作 负荷 设计 的 ， 
不 过 ， 在 实际 中 ， 也 为 多 种 工作 负荷 提供 了 良好 的 性 能 。 但 是 ， 它 与 前 面 介 绍 的 IO 调度 程序 有 
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根本 的 不 同 。 

CFQ UO 调度 程序 把 进入 的 IO 请 求 放 入 特定 的 队列 中 , 这 种 队列 是 根据 引起 IO 请 求 的 进 
程 组 织 的 。 例如， 来 自 foo 进程 的 IO 请 求 进入 foo 队列 ， 而 来 自 bar 进程 的 IO 请求 进入 bar 队 
列 。 在 每 个 队列 中 ， 刚 进入 的 请 求 与 相 邻 请 求 合并 在 一 起 ， 并 进行 插入 分 类 。 队 列 由 此 按 扁 区 方 
式 分 类 ， 这 与 其 他 IO 调度 程序 队列 类 似 。CFQ VO 调度 程序 的 差异 在 于 每 一 个 提交 VO 的 进程 
都 有 自己 的 队列 。 

CFQ VO 调度 程序 以 时 间 片 轮转 调度 队列 ， 从 每 个 队列 中 选取 请 求 数 〈 软 认 值 为 4， 可 以 进行 配 
置 )， 然 后 进行 下 一 轮 调度 。 这 就 在 进程 级 提供 了 公平 ， 确 保 每 个 进程 接收 公平 的 磁盘 带宽 片断 。 预 
定 的 工作 负荷 是 多 媒体 ， 在 这 种 媒体 中 ， 这 种 公平 的 算法 可 以 得 到 保证 ， 比 如 ， 音 频 播放 器 总 能 够 
及 时 从 磁盘 再 填 满 它 的 音频 缓冲 区 。 不 过 ， 实 际 上 ，CFQ VO 调度 程序 在 很 多 场合 都 能 很 好 地 执行 。 

完全 公正 的 排队 IO 调度 程序 位 于 block/cfq-iosched.c。 尽 管 这 主要 推荐 给 桌面 工作 负荷 使 
用 , 但是， 如果 没有 其 他 异常 情况 ， 它 在 几乎 所 有 的 工作 负荷 中 都 能 很 好 地 执行 。 


14.5.6 ” 空 操作 的 1/O 调度 程序 


第 四 种 也 是 最 后 一 种 1/O 调度 程序 是 空 操作 (Noop) LO 调度 程序 ， 之 所 以 这 样 命名 是 因为 
它 基 本 上 是 一 个 空 操 作 ， 不 做 多 少 事 情 。 空 操作 IO 调度 程序 不 进行 排序 ， 或 者 也 不 进行 什么 其 
他 形式 的 预 寻 址 操作 。 依 此 类 推 ， 它 也 没 必 要 实现 那些 老 套 的 算法 ， 也 就 是 在 以 前 的 IO 调度 程 
序 中 看 到 的 为 了 最 小 化 请 求 周 期 而 采用 的 算法 。 

不 过 ， 空 操作 IO 调度 程序 忘 不 了 执行 合并 ， 这 就 像 它 的 家 务 事 。 当 一 个 新 的 请 求 提交 到 队 
列 时 ， 就 把 它 与 任 一 相 邻 的 请 求 合并 。 除 了 这 一 操作 ， 空 操作 LO 调度 程序 的 确 再 不 做 什么 ， 只 
是 维护 请 求 队列 以 近乎 FIFO 的 顺序 排列 ， 块 设备 驱动 程序 便 可 以 从 这 种 队列 中 摘 取 请 求 。 

空 操作 IO 调度 程序 不 勤奋 工作 是 有 道理 的 。 因 为 它 打算 用 在 块 设 备 ， 那 是 真正 的 随机 访问 
设备 ， 比 如 闪存 卡 。 如 果 块 设备 只 有 一 点 或 者 没有 “ 寻 道 ”的 负担 ， 那 么 ， 就 没有 必要 对 进入 的 
请 求 进行 插入 排序 ， 因 此 ， 空 操作 LO 调度 程序 是 理想 的 候选 者 。 

空 操作 IO 调度 程序 位 于 block/noop-iosched.c， 它 是 专 为 随机 访问 设备 而 设计 的 。 


14.5.7 1O 调度 程序 的 选择 


你 现在 已 经 看 到 2.6 内 核 中 四 种 不 同 的 IO 调度 程序 。 其 中 的 每 一 种 VO 调度 程序 都 可 以 被 
启用 ， 并 内 置 在 内 核 中 。 作 为 缺 省 ， 块 设备 使 用 完全 公平 的 VO 调度 程序 。 在 启动 时 ， 可 以 通过 
命令 行 选项 elevator=foo 来 覆盖 缺 省 ， 这 里 foo 是 一 个 有 效 而 激活 的 VO 调度 程序 ， 参 看 表 14-2。 


表 14-2 给 定 elevator 选项 的 参数 


参 数 VO 调度 程序 
as 预测 

cfq 完全 公正 的 排队 
deadline 最 终 期 限 


Doop 空 操作 
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例如 ， 内 核 命令 行 选项 elevator=as 会 启用 预测 VO 调度 程序 给 所 有 的 块 设备 ， 从 而 覆盖 默 
认 的 完全 公正 调度 程序 。 


14.6 小结 


在 本 章 中 ， 我 们 讨论 了 块 设备 的 基本 知识 ， 并 考察 了 块 IO 层 所 用 的 数据 结构 : bio， 表 示 
活动 的 IO 操作 ; buffer head， 表 示 块 到 页 的 映射 ; 还 有 请 求 结构 ， 表 示 具 体 的 VO 请 求 。 我 们 
追寻 了 LO 请 求 简单 但 重要 的 生命 历程 ， 其 生命 的 重要 点 就 是 IO 调度 程序 。 我 们 讨论 了 LO 调 
度 程序 所 涉及 的 困惑 问题 ， 同 时 仔细 推荐 了 当前 内 核 的 4 种 VO 调度 程序 ， 以 及 2.4 版 本 中 原 有 
的 linus 电梯 调度 。 

我 们 将 在 第 15 章 讨论 进程 地 址 空间 。 


第 49 章 
进程 地 址 空间 


第 12 章 介绍 了 内 核 如 何 管理 物理 内 存 。 其 实 内 核 除了 管理 本 身 的 内 存 外 ， 还 必须 管理 用 户 
空间 中 进程 的 内 存 。 我 们 称 这 个 内 存 为 进程 地 址 空间 ， 也 就 是 系统 中 每 个 用 户 空间 进程 所 看 到 
的 内 存 。Linux 操作 系统 采用 虚拟 内 存 技术 ， 因 此 ， 系 统 中 的 所 有 进程 之 间 以 虚拟 方式 共享 内 
存 。 对 一 个 进程 而 言 ， 它 好 像 都 可 以 访问 整个 系统 的 所 有 物理 内 存 。 更 重要 的 是 ， 即 使 单独 一 
个 进程 ， 它 拥有 的 地 址 空间 也 可 以 远 远 大 于 系统 物理 内 存 。 本 章 将 集中 讨论 内 核 如 何 管理 进程 
地 址 空间 。 


15.1 地址 空间 


进程 地 址 空间 由 进程 可 寻 址 的 虚拟 内 存 组 成 ， 而 且 更 为 重要 的 特点 是 内 核 允许 进程 使 用 这 种 
虚拟 内 存 中 的 地 址 。 每 个 进程 都 有 一 个 32 位 或 64 位 的 平坦 (flat〉 地 址 空间 ， 空 间 的 具体 大 小 取 
决 于 体系 结构 。 术 语 “ 平 坦 ” 指 的 是 地 址 空间 范围 是 一 个 独立 的 连续 区 间 〈 比 如 ， 地 址 从 0 扩展 
到 4294967295 的 32 位 地 址 空间 )。 一 些 操作 系统 提供 了 段 地 址 空间 ， 这 种 地 址 空间 并 非 是 一 个 独 
立 的 线性 区 域 ， 而 是 被 分 段 的 ， 但 现代 采用 虚拟 内 存 的 操作 系统 通常 都 使 用 平坦 地 址 空间 而 不 是 
分 段 式 的 内 存 模式 。 通 常情 况 下 ， 每 个 进程 都 有 唯一 的 这 种 平坦 地 址 空间 。 一 个 进程 的 地 址 空间 
与 另 一 个 进程 的 地 址 空间 即使 有 相同 的 内 存 地 址 ， 实 际 上 也 彼此 互 不 相干 。 我 们 称 这 样 的 进程 为 
线程 。 

内 存 地 址 是 一 个 给 定 的 值 ， 它 要 在 地 址 空间 范围 之 内 ， 比 如 4021f000。 这 个 值 表 示 的 是 进程 
32 位 地 址 空间 中 的 一 个 特定 的 字 节 。 尽 管 一 个 进程 可 以 寻 址 4GB 的 虚拟 内 存在 32 位 的 地 址 
空间 中 )， 但 这 并 不 代表 它 就 有 权 访 问 所 有 的 虚拟 地 址 。 在 地 址 空间 中 ， 我 们 更 为 关心 的 是 一 些 
虚拟 内 存 的 地 址 区 间 ， 比 如 08048000-0804c000， 它 们 可 被 进程 访问 。 这 些 可 被 访问 的 合法 地 址 
空间 称 为 内 存 区 域 (memory areas)。 通 过 内 核 ， 进 程 可 以 给 自己 的 地 址 空间 动态 地 添加 或 减少 
内 存 区 域 。 

进程 只 能 访问 有 效 内 存 区 域内 的 内 存 地 址 。 每 个 内 存 区 域 也 具有 相关 权限 如 对 相关 进程 有 可 
读 、 可 写 、 可 执行 属性 。 如 果 一 个 进程 访问 了 不 在 有 效 范围 中 的 内 存 区 域 ， 或 以 不 正确 的 方式 访 
问 了 有 效 地 址 ， 那 么 内 核 就 会 终止 该 进程 ， 并 返回 “ 段 错误 ”信息 。 

内 存 区 域 可 以 包含 各 种 内 存 对 象 ， 比 如 ; 

。 可 执行 文件 代码 的 内 存 映射 ， 称 为 代码 段 (text section ) 。 

。 可 执行 文件 的 已 初始 化 全 局 变量 的 内 存 映 射 ， 称 为 数据 段 (data section ) 。 
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“包含 未 初始 化 全 局 变量 ， 也 就 是 bss 段 9 的 零 页 (页 面 中 的 信息 全 部 为 0 值 ， 所 以 可 用 于 

映射 bss 段 等 目的 ) 的 内 存 映 射 。 

。 用 于 进程 用 户 空 间 栈 ( 不 要 和 进程 内 核 栈 混淆 ， 进 程 的 内 核 栈 独立 存在 并 由 内 核 维护 ) 的 

零 页 的 内 存 映 射 。 

.每 一 个 诸如 C 库 或 动态 连接 程序 等 共享 库 的 代码 段 、 数 据 段 和 bss 也 会 被 载 入 进程 的 地 址 

空间 。 

“任何 内 存 映射 文件 。 

“任何 共享 内 存 段 。 

* 任何 匿名 的 内 存 映射， 比如 由 malloc( 9 分配 的 内 存 。 

进程 地 址 空间 中 的 任何 有 效 地 址 都 只 能 位 于 唯一 的 区 域 ， 这 些 内 存 区 域 不 能 相互 覆盖 。 可 以 
看 到 ， 在 执行 的 进程 中 ， 每 个 不 同 的 内 存 片 段 都 对 应 一 个 独立 的 内 存 区 域 : 栈 、 对 象 代码 、 会 局 
变量 、 被 映射 的 文件 等 。 


15.2 内存 描述 符 


内 核 使 用 内 存 描述 符 结 构 体 表示 进程 的 地 址 空间 ， 该 结构 包含 了 和 进程 地 址 空间 有 关 的 全 部 
信息 。 内 存 描述 符 由 mm_struct 结 构 体 表示 ， 定 义 在 文件 <linux/sched.h> 中 。 下 面 给 出 内 存 描述 


符 的 结构 和 各 个 域 的 描述 : 
struct mm struct{ 

struct vm area struct *mmap; /* 内 存 区 域 链表 */ 
struct rb_root mm_rb; /* VMA 形成 的 红 黑 树 */ 
struct vm area struct *mmap_cache; /* 最 近 使 用 的 内 存 区 域 */ 
unsigned long free area cache; /* 地 址 空间 第 一 个 空洞 */ 
pgd 上 *pgd; /* 页 全 局 目录 */ 
atomic t mm users; /* 使 用 地 址 空间 的 用 户 数 */ 
atomic t mm count; /* 主 使 用 计数 器 */ 
int map_count; /* 内 存 区 域 的 个 数 */ 
struct rw_semaphore mmap_sem; /* 内 存 区 域 的 信号 量 */ 
spinlock 七 page_table lock; /* 页 表 锁 */ 
struct list head mmlist; /* 所 有 mm_struct 形成 的 链表 */ 
unsigned long start_code; /* 代码 段 的 开始 地 址 */ 
unsigned long end_code; /* 代码 段 的 结束 地 址 */ 
unsigned long start data; /* 数据 的 首 地 址 */ 
unsigned long end data; /* 数据 的 尾 地 址 */ 
unsigned long start_brk; /* 堆 的 首 地 址 */ 
unsigned long brk; /* 堆 的 尾 地 址 */ 
unsigned long start_stack; /* 进程 栈 的 首 地 址 */ 
unsigned long arg_start; /* 命令 行 参数 的 首 地 址 */ 
unsigned Long arg_end; /* 命令 行 参 数 的 尾 地 址 */ 
unsigned long env_start; /* 环境 变量 的 首 地 址 */ 
unsigned long env_end; /* 环境 变量 的 尾 地 址 */ 


日 术语 “BSS” 已 经 有 些 年 头 了 ， 它 是 block started by symbol 的 缩写 。 因 为 未 初始 化 的 变量 没有 对 应 的 值 ， 所 
以 并 不 需要 存放 在 可 执行 对 象 中 。 但 是 因为 C 标准 强制 规定 未 初始 化 的 全 局 变量 要 被 赋予 特殊 的 默认 值 〈 基 
本 上 是 0 值 )， 所 以 内 核 要 将 变量 (未 赋值 的 ) 从 可 执行 代码 载 人 到 内 存 中 ， 然 后 将 零 页 映射 到 该 片 内 存 上 ， 
于 是 这 些 未 初始 化 变量 就 被 赋予 了 0 值 。 这 样 做 避免 了 在 目标 文件 中 显 式 地 进行 初始 化 ， 减 少 了 空间 浪费 。 

日 在 最 新 版 本 的 glibc 中 ， 通 过 mmap() 和 brk0 来 实现 malloc0 函数 。 
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unsigned long rss; /* 所 分 配 的 物理 页 */ 
unsigned long total vm; /* 全 部 页 面 数目 */ 
unsigned long locked vm; /* 上 锁 的 页 面 数 目 */ 
unsigned long saved auxv [AT VECTOR SIZE] ; /* 保存 的 auxv */ 
cpumask t cpu_vm mask; /* 懒惰 (1azy) TLB 交换 掩 码 */ 
mm context 七 context; /* 体系 结构 特殊 数据 */ 
unsigned long flags; /* 状态 标志 */ 

int core waiters; /* 内 核 转 储 等 待 线程 */ 
struct core state *core_state; /* 核心 转 储 的 支持 */ 
spinlock t ioctx lock; /* AIO I/O 链表 锁 */ 
struct hlist head ioctx list; /* AIO I/O 链表 */ 


}; 


mm_users 域 记录 正在 使 用 该 地 址 的 进程 数目 。 比 如 ， 如 果 两 个 线程 共享 该 地 址 空间 ， 那 么 
mm_users 的 值 便 等 于 2 ; mm_count 域 是 mm_struct 结构 体 的 主 引 用 计数 。 所 有 的 mm users 都 
等 于 mm_count 的 增加 量 。 这 样 ， 在 前 面 的 例子 中 ，mm_count 就 仅仅 为 1。 如 果 有 9 个 线程 共享 
某 个 地 址 空间 ， 那 么 mm_users 将 会 是 9， 而 mm_count 的 值 将 再 次 为 1。 当 mm _users 的 值 减 为 
0 〈 即 所 有 正 使 用 该 地 址 空间 的 线程 都 退出 ) 时 ，mm_count 域 的 值 才 变 为 0。 当 mm_count 的 值 
等 于 0， 说 明 已 经 没有 任何 指向 该 mm_struct 结构 体 的 引用 了 ， 这 时 该 结构 体会 被 撤销 。 当 内 核 
在 一 个 地 址 空间 上 操作 ， 并 需要 使 用 与 该 地 址 相关 联 的 引用 计数 时 ， 内 核 便 增加 mm_count。 内 
核 同 时 使 用 这 两 个 计数 器 是 为 了 区 别 主 使 用 计数 〈mm_count) 器 和 使 用 该 地 址 空间 的 进程 的 数 
目 (mm users)。 

mmap 和 mm _rb 这 两 个 不 同 数据 结构 体 描述 的 对 象 是 相同 的 : 该 地 址 空间 中 的 全 部 内 存 区 
域 。 但 是 前 者 以 链表 形式 存放 而 后 者 以 红 一 黑 树 的 形式 存放 。 红 一 黑 树 是 一 种 二 叉 树 ， 与 其 他 二 
又 树 一 样 ， 搜 索 它 的 时 间 复 杂 度 为 O(log n)。 在 本 章 后 续 部 分 “内 存 区 域 的 树 型 结构 和 内 存 区 
域 的 链表 结构 ”一 节 中 ， 我 们 将 进一步 讨论 红 一 黑 树 。 

内 核 通 常会 避免 使 用 两 种 数据 结构 组 织 同 一 种 数据 ， 但 此 处 内 核 这 样 的 元 余 确 实 派 得 上 用 
场 。mmap 结构 体 作 为 链表 ， 利 于 简单 、 高 效 地 遍历 所 有 元 素 ; 而 mm _tb 结构 体 作 为 红 一 黑 树 ， 
更 适合 搜索 指定 元 素 。 对 内 存 区 域 的 具体 操作 将 在 本 章 的 后 续 部 分 详细 介绍 。 内 核 并 没有 复制 
mm_struct 结构 体 ， 而 仅仅 被 包含 其 中 。 和 覆盖 树 上 的 链表 并 用 这 两 个 结构 体 同 时 访问 相同 的 数据 
集 ， 有 时 候 我 们 将 此 操作 称 作 线索 树 。 

所 有 的 mm_struct 结构 体 都 通过 自身 的 mmlist 域 连接 在 一 个 双向 链表 中 ， 该 链表 的 首 元 素 
是 init_ mm 内 存 描述 符 ， 它 代表 init 进程 的 地 址 空间 。 另 外 要 注意 ， 操 作 该 链表 的 时 候 需 要 使 用 
mmlist_lock 锁 来 防止 并 发 访问 ， 该 锁定 义 在 文件 kerneUfork.c 中 。 


15.2.1 分 配 内 存 描述 符 


在 进程 的 进程 描述 符 ( 在 <linux/sched.h> 中 定义 的 task_struct 结构 体 就 表示 进程 描述 符 ) 
中 ，mm 域 存放 着 该 进程 使 用 的 内 存 描述 符 ， 所 以 current-> mm 便 指向 当前 进程 的 内 存 描述 
符 。fork0 函数 利用 copy_mm0) 函数 复制 父 进程 的 内 存 描述 符 ， 也 就 是 current->mm 域 给 其 子 
进程 ， 而 子 进程 中 的 mm_struct 结构 体 实际 是 通过 文件 kernel/fork.c 中 的 allocate_ mm/() 宏 从 
mm_cachep slab 缓存 中 分 配 得 到 的 。 通 常 ， 每 个 进程 都 有 唯一 的 mm_struct 结构 体 ， 即 唯一 的 
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进程 地 址 空间 。 

如 果 父 进程 希望 和 其 子 进程 共享 地 址 空间 ， 可 以 在 调用 clone0 时 ， 设 置 CLONE_VM 标志 。 
我 们 把 这 样 的 进程 称 作 线程 。 回 忆 第 3 章 ， 是 否 共享 地 址 空间 几乎 是 进程 和 Linux 中 所 谓 的 线程 
间 本 质 上 的 唯一 区 别 。 除 此 以 外 ，Linux 内 核 并 不 区 别 对 待 它们 ， 线 程 对 内 核 来 说 仅仅 是 一 个 共 
享 特 定 资源 的 进程 而 已 。 

当 CLONE_VM 被 指定 后 ， 内 核 就 不 再 需要 调用 allocate_ mm0) 函数 了 ， 而 仅仅 需要 在 调用 
copy_mm() 函数 中 将 mm 域 指向 其 父 进程 的 内 存 描述 符 就 可 以 了 : 

if (clone flags & CLONE VM){ 


/* 
* current 是 父 进程 而 tsk 在 fork () 执行 期 间 是 子 进程 
*/ 


atomic inc(gcurrent->mm->mm users); 
tsk->mm= current ->mm; 


} 
15.2.2 ”撤销 内 存 描述 符 


1 当 进 程 退出 时 ， 内 核 会 调用 定义 在 kernelexitc 中 的 exit_mm0 函数 ， 该 函数 执行 一 些 常 

规 的 撤销 工作 ， 同 时 更 新 一 些 统计 量 。 其 中 ， 该 函数 会 调用 mmputO 函数 减少 内 存 描述 符 中 的 
”mm_users 用 户 计数 , 如 果 用 户 计数 降 到 零 ， 将 调用 mmdropO 函数 ， 减 少 mm_count 使 用 计数 。 
如 果 使 用 计数 也 等 于 零 了 ， 说 明 该 内 存 描述 符 不 再 有 任何 使 用 者 了 ， 那 么 调用 free_ mm0 宏 通过 
kmem_cache_free0 函数 将 mm_struct 结构 体 归还 到 mm_cachep slab 缓存 中 。 


15.2.3 mm_struct 与 内 核 线程 


内 核 线程 没有 进程 地 址 空间 ， 也 没有 相关 的 内 存 描述 符 。 所 以 内 核 线程 对 应 的 进程 描述 符 中 
mm 域 为 空 。 事 实 上 ， 这 也 正 是 内 核 线程 的 真实 含义 一 一 它们 没有 用 户 上 下 文 。 

省 了 进程 地 址 空间 再 好 不 过 了 ， 因 为 内 核 线程 并 不 需要 访问 任何 用 户 空间 的 内 存 〈 那 它们 访 
问 谁 的 呢 ? ) 而 且 因 为 内 核 线程 在 用 户 空间 中 没有 任何 页 ， 所 以 实际 上 它们 并 不 需要 有 自己 的 内 
存 描述 符 和 页 表 〈 后 面 的 内 容 将 讲述 页 表 )。 尽 管 如 此 ， 即 使 访问 内 核 内 存 ， 内 核 线程 也 还 是 需 
要 使 用 一 些 数据 的 ， 比 如 页 表 。 为 了 避免 内 核 线程 为 内 存 描述 符 和 页 表 浪 费 内 存 ， 也 为 了 当 新 内 
核 线程 运行 时 ， 避 免 浪 费 处 理 器 周期 向 新 地 址 空间 进行 切换 ， 内 核 线程 将 直接 使 用 前 一 个 进程 的 
内 存 描述 符 。 

当 一 个 进程 被 调度 时 ， 该 进程 的 mm 域 指向 的 地 址 空间 被 装载 到 内 存 ， 进 程 描述 符 中 的 
active_mm 域 会 被 更 新 ， 指 向 新 的 地 址 空间 。 内 核 线程 没有 地 址 空间 ， 所 以 mm 域 为 NULL。 
于 是 ， 当 一 个 内 核 线程 被 调度 时 ， 内 核发 现 它 的 mm 域 为 NULL， 就 会 保留 前 一 个 进程 的 地 址 
空间 ， 随 后 内 核 更 新 内 核 线程 对 应 的 进程 描述 符 中 的 active_mm 域 ， 使 其 指向 前 一 个 进程 的 内 
存 描述 符 。 所 以 在 需要 时 ， 内 核 线程 便 可 以 使 用 前 一 个 进程 的 页 表 。 因 为 内 核 线程 不 访问 用 户 
空间 的 内 存 ， 所 以 它们 仅仅 使 用 地 址 空间 中 和 内 核 内 存 相关 的 信息 ， 这 些 信 息 的 含义 和 普通 进 
程 完全 相同 。 


进香 怨 在 僧 闻 251 


15.3 虚拟 内 存 区 域 


内 存 区 域 由 vm_area_struct 结构 体 描述 ， 定 义 在 文件 <linux/mm types.h> 中 。 内 存 区 域 在 
Linux 内 核 中 也 经 常 称 作 虚 拟 内存 区 域 (virtual memoryAreas,，VMAs)。 

vm_area_struct 结构 体 描 述 了 指定 地 址 空间 内 连续 区 间 上 的 一 个 独立 内 存 范围 。 内 核 将 每 个 
内 存 区 域 作 为 一 个 单独 的 内 存 对 象 管理 ， 每 个 内 存 区 域 都 拥有 一 致 的 属性 ， 比 如 访问 权限 等 ， 另 
外 ， 相 应 的 操作 也 都 一 致 。 按 照 这 样 的 方式 ， 每 一 个 VMA 就 可 以 代表 不 同类 型 的 内 存 区 域 ( 比 
如 内 存 映 射 文件 或 者 进程 用 户 空间 栈 )， 这 种 管理 方式 类 似 于 使 用 VFS 层 的 面向 对 象 方法 〈 请 看 
第 13 章 )， 下 面 给 出 该 结构 定义 和 各 个 域 的 描述 : 


struct vm area struct { 


struct mm struct *vm_mm; /* 相关 的 mm_struct 结构 体 */ 
unsigned long vm_start; /* 区 间 的 首 地 址 */ 
unsigned long vm_end; /* 区 间 的 尾 地 址 */ 
struct vm area struct *vm next; /*VMA 链表 */ 
pgprot_t Vvm_page_prot; /* 访问 控制 权限 */ 
unsigned long vm flags; /* 标 志 */ 
struct rb node vm_rb; /* 树 上 该 VMA 的 节点 */ 
union { /* 或 者 是 关联 于 address_space->i_mmap 字段 ， 或 者 是 关联 于 
address_space->i_mmap_nonlinear 字段 */ 
struct { 

struct list head list; 

void *parent; 

struct vm area struct *head; 

} vm _set; 
struct prio tree node prio tree node; 

} shared; 
struct list head anon_ vma_ node; /*anon vma 项 */ 
struct anon vma *anon_vma; /* 匿名 VMA 对 象 */ 
struct vm operations struct  *vm ops; /* 相关 的 操作 表 */ 
unsigned long vm pgoff; /* 文件 中 的 偏 移 量 */ 
struct file *vm file; /* 被 映射 的 文件 (如 果 存 在 ) */ 
void *vm private data; /* 私有 数据 */ 


}; 


每 个 内 存 描述 符 都 对 应 于 进程 地 址 空间 中 的 唯一 区 间 。vm_start 域 指向 区 间 的 首 地 址 (最 低 
地 址 )，vm_end 域 指向 区 间 的 尾 地 址 (最 高 地 址 ) 之 后 的 第 一 个 字 节 ， 也 就 是 说 ，vm_start 是 内 
存 区 间 的 开始 地 址 〈 它 本 身 在 区 间 内 ) ,而 vm_end 是 内 存 区 间 的 结束 地 址 ( 它 本 身 在 区 间 外 )， 
因此 , vm_end 一 vm_start 的 大 小 便 是 内 存 区 间 的 长 度 ， 内 存 区 域 的 位 置 就 在 [vm_start, vm_end] 
之 中 。 注 意 ， 在 同一 个 地 址 空间 内 的 不 同 内 存 区 间 不 能 重叠 。 

vm_mm 域 指向 和 VMA 相关 的 mm_struct 结构 体 ， 注 意 ， 每 个 VMA 对 其 相关 的 mm_struct 
结构 体 来 说 都 是 唯一 的 ， 所 以 即使 两 个 独立 的 进程 将 同一 个 文件 映射 到 各 自 的 地 址 空间 ， 它 们 分 
别 都 会 有 一 个 vm_area_struct 结构 体 来 标志 自己 的 内 存 区 域 ; 反 过 来 ， 如 果 两 个 线程 共享 一 个 地 
址 空间 ， 那 么 它们 也 同时 共享 其 中 的 所 有 vm_area_struct 结构 体 。 


15.3.1 VMA 标志 
VMA 标志 是 一 种 位 标志 ， 其 定义 见 <linux/mm.h>。 它 包含 在 vm_flags 域内 ， 标 志 了 内 存 区 
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域 所 包含 的 页 面 的 行为 和 信息 。 和 物理 页 的 访问 权限 不 同 ，VMA 标志 反映 了 内 核 处 理 页 面 所 需 
要 遵守 的 行为 准则 ， 而 不 是 硬件 要 求 。 而 且 , vm_flags 同时 也 包含 了 内 存 区 域 中 每 个 页 面 的 信息 ， 
或 内 存 区 域 的 整体 信息 ， 而 不 是 具体 的 独立 页 面 。 表 15-1 列 出 了 所 有 VMA 标志 的 可 能 取 值 。 


标 志 
VM_READ 
VM_WRITE 
VM_EXEC 
VM_SHARED 
VM_MAYREAD 
VM_MAYWRITE 
VM_MAYEXEC 
VM_MAYSHARE 
VM_GROWSDOWN 
VM_GROWSUP 
VM_SHM 
VM_DENYWRITE 
VM_EXECUTABLE 
VM_LOCKED 
.VM_IO 
VM_SEQ READ 
VM_RAND READ 
VM_DONTCOPY 
VM_DONTEXPAND 
VM_ RESERVED 
VM_ACCOUNT 
VM_HUGETLB 
VM_NONLINEAR 


表 15-1 VMA 标志 


对 VMA 及 其 页 面 的 影响 
页 面 可 读 取 

页 面 可 写 

页 面 可 执行 

页 面 可 共享 
VM_READ 标志 可 被 设置 
VM_WRITE 标志 可 被 设置 
VM_EXEC 标志 可 被 设置 
VM_SHARE 标志 可 被 设置 
区 域 可 向 下 增长 

区 域 可 向 上 增长 

区 域 可 用 作 共 享 内 存 

区 域 映 射 一 个 不 可 写 文件 
区 域 映射 一 个 可 执行 文件 
区 域 中 的 页 面 被 锁定 

区 域 映射 设备 IO 空间 

页 面 可 能 会 被 连续 访问 
页 面 可 能 会 被 随机 访问 

区 域 不 能 在 fork0O 时 被 拷贝 
区 域 不 能 通过 mremap0( 增加 
区 域 不 能 被 换 出 

该 区 域 是 一 个 记 账 VM 对 象 
区 域 使 用 了 hugetlb 页 面 
该 区 域 是 非 线性 映射 的 


让 我 们 进一步 看 看 其 中 有 趣 和 重要 的 几 种 标志 ，VM_READ、VM_WRITE 和 VM_EXEC 标 
志 了 内 存 区 域 中 页 面 的 读 、 写 和 执行 权限 。 这 些 标志 根据 要 求 组 合 构成 VMA 的 访问 控制 权限 ， 
当 访 问 VMA 时 ， 需 要 查看 其 访问 权限 。 比 如 进程 的 对 象 代码 映射 区 域 可 能 会 标志 为 VM_READ 
和 VM_EXEC, 而 没有 标志 为 VM_ WRITE ; 另 一 方面 ， 可 执行 对 象 数 据 段 的 映射 区 域 标志 为 
VM_READ 和 VM_WRITE, 而 VM_EXEC 标志 对 它 就 毫 无 意义 。 也 就 是 说 ， 只 读 文件 数据 段 的 


映射 区 域 仅 可 被 标志 为 VM_READ。 


VM _SHARD 指明 了 内 存 区 域 包含 的 映射 是 否 可 以 在 多 进程 间 共 享 , 如 果 该 标志 被 设置 ， 则 我 们 称 
其 为 共享 映射 ; 如 果 未 被 设置 ， 而 仅仅 只 有 一 个 进程 可 以 使 用 该 映射 的 内 容 ， 我 们 称 它 为 私有 映射 。 
VM_IO 标志 内 存 区 域 中 包含 对 设备 IO 空间 的 上 映射。 该 标志 通常 在 设备 驱动 程序 执行 
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mmap0( 函数 进行 VO 空间 映射 时 才 被 设置 ， 同 时 该 标志 也 表示 该 内 存 区 域 不 能 被 包含 在 任何 进 
程 的 存放 转 存 (core dump) 中 。VM_RESERVED 标志 规定 了 内 存 区 域 不 能 被 换 出 ， 它 也 是 在 设 
备 驱 动 程序 进行 映射 时 被 设置 。 

VM_SEQ_READ 标志 暗示 内 核 应 用 程序 对 映射 内 容 执行 有 序 的 《线性 和 连续 的 ) 读 操作 ; 
这 样 ， 内 核 可 以 有 选择 地 执行 预 读 文件 。VM_RAND_READ 标志 的 意义 正好 相反 ， 暗 示 应 用 程 
序 对 映射 内 容 执 行 随机 的 《〈 非 有 序 的 ) 读 操作 。 因 此 内 核 可 以 有 选择 地 减少 或 彻底 取消 文件 预 
读 ， 所 以 这 两 个 标志 可 以 通过 系统 调用 madvise0 设置 ， 设 置 参数 分 别 是 MADV_SEQUENTIAL 
和 MADV_RANDOM。 文件 预 读 是 指 在 读数 据 时 有 意 地 按 顺 序 多 读 取 一 些 本 次 请 求 以 外 的 数 
据 一 一 希望 多 读 的 数据 能 够 很 快 就 被 用 到 。 这 种 预 读 行为 对 那些 顺序 读 取 数据 的 应 用 程序 有 很 大 
的 好 处 ， 但 是 如 果 数 据 的 访问 是 随机 的 ， 那 么 预 读 显然 就 多 余 了 。 


15.3.2 ”VMA 操作 


， ”vm_area_struct 结构 体 中 的 vm_ops 域 指向 与 指定 内 存 区 域 相关 的 操作 函数 表 ， 内 核 使 用 表 
中 的 方法 操作 VMA。vm_area_struct 作为 通用 对 象 代表 了 任何 类 型 的 内 存 区 域 ， 而 操作 表 描 述 针 
对 特定 的 对 象 实例 的 特定 方法 。 

操作 函数 表 由 vm_operations_struct 结构 体 表示 ， 定 义 在 文件 <linux/mm.h> 中 : 


struct vm operations struct { 
void (*open) (struct vm area struct *); 
void (*close) (struct vm area struct *),，; 
int (*fault) (struct vm area struct *, struct vm fault *) ， 
int (*page mkwrite) (struct vm area struct *vma, struct vm fault *vmf); 
int (*access) {struct vm area struct *, unsigned long ， 
void *, int, int); 


}; 

下 面 介绍 具体 方法 : 

*void open (struct vm area_struct *area) 

当 指 定 的 内 存 区 域 被 加 入 到 一 个 地 址 空间 时 ， 该 函数 被 调用 。 

*void close(struct vm_area_struct *area) 

当 指 定 的 内 存 区 域 从 地 址 空间 删除 时 ， 该 函数 被 调用 。 

*int fault(struct vm area sruct *area, struct vm fault *vmf) 

当 没 有 出 现在 物理 内 存 中 的 页 面 被 访问 时 ， 该 函数 被 页 面 故障 处 理 调用 。 
*int page mkwrite(struct vm area sruct *area, struct vm fault *vmf) 
当 某 个 页 面 为 只 读 页 面 时 ， 该 函数 被 页 面 故 障 处 理 调用 。 


*int access(struct vm area struct *vma，unsigned long address, void 
*buf, int len, int write) 


当 get_user_pages() 国 数 调 用 失败 时 ， 该 国 数 被 access_process_vm0 函数 调用 。 
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15.3.3 ”内 存 区 域 的 树 型 结构 和 内 存 区 域 的 链表 结构 


上 文 讨 论 过 ， 可 以 通过 内 存 描述 符 中 的 mmap 和 mm_rm 域 之 一 访问 内 存 区 域 。 这 两 个 域 
各 自 独 立地 指向 与 内 存 描述 符 相 关 的 全 体内 存 区 域 对 象 。 其 实 ， 它 们 包含 完全 相同 的 vm_area_ 
struct 结构 体 的 指针 ， 仅 仅 组 织 方法 不 同 。 

mmap 域 使 用 单独 链表 连接 所 有 的 内 存 区 域 对 象 。 每 一 个 vm_area_struct 结构 体 通过 自身 的 
vm_next 域 被 连 入 链表 ， 所 有 的 区 域 按 地址 增长 的 方向 排序 ，mmap 域 指向 链表 中 第 一 个 内 存 区 
域 ， 链 中 最 后 一 个 结构 体 指针 指向 空 。 

mm_rb 域 使 用 红 一 黑 树 连接 所 有 的 内 存 区 域 对 象 。mm_rb 域 指向 红 一 黑 树 的 根 节 点 ， 地 址 
空间 中 每 一 个 vm_area_struct 结构 体 通过 自身 的 vm_ 中 域 连接 到 树 中 。 

红 一 黑 树 是 一 种 二 又 树 ， 树 中 的 每 一 个 元 素 称 为 一 个 节点 ， 最 初 的 节点 称 为 树 根 。 红 一 黑 树 
的 多 数 节点 都 由 两 个 子 节点 : 一 个 左 子 节 点 和 一 个 右 子 节点 ， 不 过 也 有 节点 只 有 一 个 子 节 点 的 情 
况 。 树 末端 的 节点 称 为 叶子 节点 ， 它 们 没有 子 节 点 。 红 一 黑 树 中 的 所 有 节点 都 遵从 : 左边 节点 值 
小 于 右边 节点 值 ;另外 每 个 节点 都 被 配 以 红色 或 黑色 〈 要 么 红 要 么 黑 ， 所 以 叫做 红 一 黑 树 )。 分 配 
的 规则 为 : 红 节点 的 子 节点 为 黑色 ， 并 且 树 中 的 任何 一 条 从 节点 到 叶子 的 路 径 必 须 包 含 同样 数目 
的 黑色 节点 。 记 住 根 节点 总 为 红色 。 红 一 黑 树 的 搜索 、 插 入 、 删 除 等 操作 的 复杂 度 都 为 Odog(n))。 

链表 用 于 需要 遍历 全 部 节点 的 时 候 ， 而 红 一 黑 树 适用 于 在 地 址 空间 中 定位 特定 内 存 区 域 的 
时 候 。 内 核 为 了 内 存 区 域 上 的 各 种 不 同 操作 都 能 获得 高 性 能 ， 所 以 同时 使 用 了 这 两 种 数据 结构 。 


15.3.4 ”实际 使 用 中 的 内 存 区 域 
可 以 使 用 /proc 文件 系统 和 pmap (1) 工具 查看 给 定 进 程 的 内 存 空间 和 其 中 所 含 的 内 存 区 域 。 
我 们 来 看 一 个 非常 简单 的 用 户 空间 程序 的 例子 ， 它 其 实 什 么 也 不 做 ， 仅 仅 是 为 了 做 说 明 : 


int main(int argc,char *argv[]) 


{ 
} 


下 面 列 出 该 进程 地 址 空间 中 包含 的 内 存 区 域 。 其 中 有 代码 段 、 数 据 段 和 bss 段 等 。 假 设 该 进 
程 与 C 库 动态 连接 ， 那 么 地 址 空间 中 还 将 分 别 包含 libc.so 和 1d.so 对 应 的 上 述 三 种 内 存 区域 。 此 
外 ， 地 址 空间 中 还 要 包含 进程 栈 对 应 的 内 存 区 域 。 

/proc/<pid>/maps 的 输出 显示 了 该 进程 地 址 空间 中 的 全 部 内 存 区 域 : 


rlove@wolf:~$ cat /proc/1426/maps 


return 0; 


00e80000-00faf000 r-xp 00000000 03:01 208530 
00faf000-00fb2000 rw-p 0012f000 03:01 208530 
00fb2000-00fb4000 rw-p 00000000 00:00 0 
08048000-08049000 r-xp 00000000 03:03 439029 
08049000-0804a000 rw-p 00000000 03:03 439029 
40000000-40015000 r-xp 00000000 03:01 80276 
40015000-40016000 rw-p 00015000 03:01 80276 
4001e000-4001f000 rw-p 00000000 00:00 0 
bfffe000-c0000000 rwxp fffff£000 00:00 0 


/lib/tls/libc-2.5.1.s0o 
/lib/tls/libc-2.5.1.so 


/home/rlove/src/example 
/home/rlove/src/example 
/lib/1d-2.5.1.so 
/1Lib/ld-2.5.1.so 
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每 行 数据 格式 如 下 : 
开始 一 结束 访问 权限 ” 偏 移 ” 主 设备 号 : 次 设备 号 i 节点 文件 
pmap (1) 工具 所 将 上 述 信息 以 更 方便 阅读 的 形式 输出 : 


rlove@wolf:~$ pmap 1426 
example [1426] 


00e80000(1212KB) r-xp (03:01 208530) /lib/tls/libc-2.5.1.s0 
00faf000 (12KB) rw-p (03:01 208530) /lib/tlis/liibc-2.5.1.80 
00fbz000 (8KB) rw-p (00:000) 

08048000 (4KB) r-xp (03:03 439029) /home/rlove/src/example 
08049000 (4KB) rw-p (03:03 439029) /home/rlove/src/example 
40000000 (84KB) r-xp (03:01 80276) /lib/1d-2.5.1.s80 
40015000 (4KB) rw-p (03:01 80276) /1ib/la-2.5.1.so 
4001e000 (4KB) rw-p {00:00 0) 

bfffe000 (8KB) rwxp {00:00 0) [stack] 

mapped :1340KB writable/private : 40KB shared :0KB 


前 三 行 分 别 对 应 C 库 中 lic.so 的 代码 段 、 数 据 段 和 bss 段 ， 接 下 来 的 两 个 行为 可 执行 对 象 的 
代码 段 和 数据 段 ， 再 下 来 三 个 行为 动态 连接 程序 1d.so 的 代码 段 、 数 据 段 和 bss 段 ， 最 后 一 行 是 
进程 的 栈 。 

注意 ， 代 码 段 具有 我 们 所 要 求 的 可 读 且 可 执行 权限 ; 另 一 方面 ， 数 据 段 和 bss〈 它 们 都 包含 
全 局 数据 变量 ) 具有 可 读 、 可 写 但 不 可 执行 权限 。 而 堆栈 则 可 读 、 可 写 ， 甚 至 还 可 执行 一 一 虽然 
这 点 并 不 常用 到 。 

该 进程 的 全 部 地 址 空间 大 约 为 1340KB, 但 是 只 有 大 约 40KB 的 内 存 区 域 是 可 写 和 私有 的 。 如 果 
一 片 内 存 范围 是 共享 的 或 不 可 写 的 ， 那 么 内 核 只 需要 在 内 存 中 为 文件 〈backing fle) 保留 一 份 映 射 。 
对 于 共享 映射 来 说 ， 这 样 做 没什么 特别 的 ， 但 是 对 于 不 可 写 内 存 区 域 也 这 样 做 ， 就 有 些 让 人 奇怪 了 。 
如 果 考 虑 到 映射 区 域 不 可 写意 味 着 该 区 域 不 可 被 改变 〈 映 射 只 用 来 读 )， 就 应 该 清楚 只 把 该 映像 读 入 
一 次 是 很 安全 的 。 所 以 C 库 在 物理 内 存 中 仅仅 需要 占用 1212KB 空间 ， 而 不 需要 为 每 个 使 用 C 库 的 
进程 在 内 存 中 都 保存 一 个 1212KB 的 空间 。 进 程 访问 了 1340KB 的 数据 和 代码 空间 ， 然 而 仅仅 消耗 了 
40KB 的 物理 内 存 ， 可 以 看 出 利用 这 种 共享 不 可 写 内 存 的 方法 节约 了 大 量 的 内 存 空间 。 

注意 没有 映射 文件 的 内 存 区 域 的 设备 标志 为 00 : 00， 索 引 接 点 标志 也 为 0， 这 个 区 域 就 是 零 
页 一 一 零 页 映射 的 内 容 全 为 零 。 如 果 将 零 页 映射 到 可 写 的 内 存 区 域 ， 那 么 该 区 域 将 全 被 初始 化 为 0。 
这 是 零 页 的 一 个 重要 用 处 ， 而 bss 段 需要 的 就 是 全 0 的 内 存 区 域 。 由 于 内 存 未 被 共享 ， 所 以 只 要 一 有 
进程 写 该 处 数据 ， 那 么 该 处 数据 就 将 被 拷贝 出 来 (就 是 我 们 所 说 的 写 时 拷贝 )， 然 后 才 被 更 新 。 

每 个 和 进程 相关 的 内 存 区 域 都 对 应 于 一 个 vm_area_struct 结构 体 。 另 外 进程 不 同 于 线程 ， 进 
程 结构 体 stask_struct 包含 唯一 的 mm_struct 结构 体 引用 。 


15.4 ”操作 内 存 区 域 
内 核 时 常 需要 在 某 个 内 存 区 域 上 执行 一 些 操作 ， 比 如 某 个 指定 地 址 是 否 包含 在 某 个 内 存 区 域 


日 ”pmap(1) 工具 将 进程 的 内 存 区 域 格式 化 后 显示 ， 虽 然 结 果 中 的 信息 和 /proc 中 的 是 一 样 的 信息 ， 但 它 的 输出 形 
式 比 /proc 的 输出 形式 更 具 可 读 性 。 在 新 版 本 的 procps 包 中 可 以 找到 这 个 工具 。 
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中 。 这 类 操作 非常 频繁 ， 另 外 它们 也 是 mmap() 例 程 的 基础 一 一 我 们 在 15.5 节 会 讨论 mmap0 操 
作 。 为 了 方便 执行 这 类 对 内 存 区 域 的 操作 ， 内 核定 义 了 许多 的 辅助 函数 。 
它们 都 声明 在 文件 <linux/mm.h> 中 。 


15.4.1 find_vma() 


为 了 找到 一 个 给 定 的 内 存 地 址 属于 哪 一 个 内 存 区 域 ， 内 核 提 供 了 find_vma0 函数 。 该 函数 定 
义 在 文件 <mm/mmap.c> 中 : 


struct vm area struct * find vmalstruct mm struct *mm, unsigned long addr); 


该 函数 在 指定 的 地 址 空间 中 搜索 第 一 个 vm_end 大 于 addr 的 内 存 区 域 。 换 名 话说 ， 该 函数 
寻找 第 一 个 包含 addr 或 首 地 址 大 于 addr 的 内 存 区 域 ， 如 果 没 有 发 现 这 样 的 区 域 ， 该 函数 返回 
NULL ; 否则 返回 指向 匹配 的 内 存 区 域 的 vm_area_struct 结构 体 指针 。 注 意 ， 由 于 返回 的 VMA 
首 地 址 可 能 大 于 addr， 所 以 指定 的 地 址 并 不 一 定 就 包含 在 返回 的 VMA 中 。 因 为 很 有 可 能 在 对 某 
个 VMA 执行 操作 后 ， 还 有 其 他 更 多 的 操作 会 对 该 VMA 接着 进行 操作 ， 所 以 fnd_vma0 函数 返 
回 的 结果 被 缓存 在 内 存 描述 符 的 mmap_cache 域 中 。 实 践 证 明 ， 被 缓存 的 VMA 会 有 相当 好 的 命 
中 率 ( 实践 中 大 约 30% ~ 40%)， 而 且 检查 被 缓存 的 VMA 速度 会 很 快 ， 如 果 指 定 的 地 址 不 在 缓 
存 中 ， 那 么 必须 搜索 和 内 存 描述 符 相 关 的 所 有 内 存 区 域 。 这 种 搜索 通过 红 一 黑 树 进行 : 


struct vm area struct * find vmalstruct mm struct *mm, unsigned long addr) 


{ 


struct vm area struct *vma = NULL; 


if (mm) { 
vma = mm->mmap_cache; 
if (1(vma && wma->vm end > addr && vma->vm start <= addr)) { 
struct rb node *rb node; 


rb node = mm->mm rb.rb node; 
vma = NULL; 
while (rb node) { 
struct vm area struct * vma tmp; 


vma tmp = rb_entry (rb _ node, 
struct vm area struct, vm rb); 

if (vma tmp->vm end > addr) { 

vma = vma tmp; 

if (vma tmp->vm start <= addr) 

break; 

rb node = rb node->rb left; 
} else 

rb node = rb node->rb right; 


if (vma) 
mm- >mmap_cache = vma; 
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return vma; 


首先 ， 该 函数 检查 mmap_cache， 看 看 缓存 的 VMA 是 否 包 含 了 所 需 地 址 。 注 意 简 单 地 检查 
VMA 的 vm_end 是 否 大 于 addr， 并 不 能 保证 该 VMA 是 第 一 个 大 于 addr 的 内 存 区 域 ， 所 以 缓存 
要 想 发 挥 作用 ， 就 要 求 指定 的 地 址 必须 包含 在 被 缓存 的 VMA 中 一 一 幸好 ， 这 也 正 是 连续 操作 同 
一 VMA 必然 发 生 的 情况 。 

如 果 缓 存 中 并 未 包含 希望 的 VMA， 那 么 该 函数 必须 搜索 红 一 黑 树 。 如 果 当 前 VMA 的 vm_ 
end 大 于 addr， 进 入 左 子 节点 继续 搜索 ; 否则 ， 沿 右边 子 节点 搜索 ， 直 到 找到 包含 addr 的 VMA 
为 止 。 如 果 没 有 包含 addr 的 VMA 被 找到 ， 那 么 该 函数 继续 搜索 树 ， 并 且 返 回 大 于 addr 的 第 一 
个 VMA。 如 果 也 不 存在 满足 要 求 的 VMA， 那 该 函数 返回 NULL。 


15.4.2 find_vma_prev() 


find_vma_prev() 函数 和 find_vma() 工作 方式 相同 ， 但 是 它 返 回 第 一 个 小 于 addr 的 VMA。 该 
函数 定义 和 声明 分 别 在 文件 mm/mmap.c 中 和 文件 <linux/mm.h> 中 : 


struct vm area struct * find vma prevl(struct mm struct *mm,unsigned long addr ， 
struct vm area struct **pprev) 


pprev 参数 存放 指向 先 于 addr 的 VMA 指针 。 
15.4.3 find_vma_intersection() 


find_vma_intersection() 函数 返回 第 一 个 和 指定 地 址 区 间 相 交 的 VMA。 因 为 该 函数 是 内 联 函 
数 ， 所 以 定义 在 文件 <linux/mm.h> 中 : 


static inline struct vm area struct * 

find vma intersection(struct mm struct *mm, 
unsigned long start _ addr, 
unsigned long end_addr) 


struct vm_area_Struct *vma; 


vma = find vma{mm, start addr); 

if (wma && end addr <= vma->vm start) 
vma = NULL; 

return vma; 


} 


第 一 个 参数 mm 是 要 搜索 的 地 址 空间 ，start_addr 是 区 间 的 开始 首位 置 ，end_addr 是 区 间 的 
尾 位 置 。 

显然 ， 如 果 find_vma0 返回 NULL， 那 么 find_vma interesection0 也 会 返回 NULL。 但 是 如 
果 find vma0 返回 有 效 的 VMA，find vma intersection0 只 有 在 该 VMA 的 起 始 位 置 于 给 定 的 地 
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址 区 间 结 束 位 置 之 前 ， 才 将 其 返回 。 如 果 VMA 的 起 始 位 置 大 于 指定 地 址 范围 的 结束 位 置 ， 则 该 
畏 数 返回 NULL。 


15.5 mmap() 和 do_mmap() : 创建 地 址 区 间 


内 核 使 用 do_mmap0) 函数 创建 一 个 新 的 线性 地 址 区 间 。 但 是 说 该 函数 创建 了 一 个 新 VMA 
并 不 非常 准确 ， 因 为 如 果 创 建 的 地 址 区 间 和 一 个 已 经 存在 的 地 址 区 间 相 邻 ， 并 且 它 们 具有 相同 的 
访问 权限 的 话 ， 两 个 区 间 将 合并 为 一 个 。 如 果 不 能 合并 ， 就 确实 需要 创建 一 个 新 的 VMA 了 。 但 
无 论 哪 种 情况 ，do_mmap() 函数 都 会 将 一 个 地 址 区 间 加 入 到 进程 的 地 址 空间 中 一 一 无 论 是 扩展 已 
存在 的 内 存 区 域 还 是 创建 一 个 新 的 区 域 。 
do_mmap() 函数 定义 在 文件 <linux/mm.h> 中 。 


unsigned long do mmap (struct file *file, unsigned long addr, 
unsigned long len, unsigned long prot, 
unsigned long flag, unsigned long offset) 


该 函数 映射 由 file 指定 的 文件 ， 具 体 映 射 的 是 文件 中 从 偏 移 offset 处 开始 ， 长 度 为 len 字 节 
的 范围 内 的 数据 。 如 果 file 参数 是 NULL 并 且 offset 参数 也 是 0， 那 么 就 代表 这 次 映射 没有 和 文 
件 相 关 ， 该 情况 称 作 匿名 映射 《anonymous mapping)。 如 果 指 定 了 文件 名 和 偏 移 量 ， 那 么 该 映射 
称 为 文件 映射 (file-backed mapping ) 。 

addr 是 可 选 参数 ， 它 指定 搜索 空闲 区 域 的 起 始 位 置 。 

prot 参数 指定 内 存 区 域 中 页 面 的 访问 权限 。 访 问 权 限 标 志 定 义 在 文件 <asm/mman.h> 中 ， 不 
同体 系 结构 标志 的 定义 有 所 不 同 ， 但 是 对 所 有 体系 结构 而 言 ， 都 会 包含 表 15-2 中 所 列举 的 标志 。 


表 15-2 页 保护 标志 








标 志 对 新 建 区 间 中 页 的 要 求 
PROT_READ 对 应 于 VM_READ 
PROT_WRITE 对 应 于 VM_WRITE 
PROT EXEC 对 应 于 VM_EXEC 
PROT_NONE 页 不 可 被 访问 





fag 参数 指定 了 VMA 标志 ， 这 些 标志 指定 类 型 并 改变 映射 的 行为 。 它 们 也 在 文件 <asm/ 
mman.h> 中 定义 ， 请 参看 表 15-3。 


表 15-3 页 保护 标志 


标志 对 新 区 间 的 要 求 
MAP SHARED 映射 可 以 被 共享 
MAP PRIVATE 映射 不 能 被 共享 
MAP FIXED 新 区 间 必 须 开 始 于 指定 的 地 址 addr 
MAP ANONYMOUS 映射 不 是 file-backed， 而 是 匿名 的 
MAP GROWSDOWN - 对 应 于 VM_GROWSDOWN 





MAP DENYWRITIE 对 应 于 VM _DENYWRITE 
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( 续 ) 
标 ” 志 对 新 区 间 的 要 求 
MAP EXECUTABLE 对 应 于 VM_EXECUTABLE 
MAP LOCKED 对 应 于 VM_LOCKED 
MAP NORESERVE 不 需要 为 映射 保留 空间 
MAP POPULATE 填充 页 表 
MAP NONBLOCK 在 IO 操作 上 不 堵塞 


如 果 系 统 调用 do_mmap0 的 参数 中 有 无 效 参 数 ， 那 么 它 返 回 一 个 负 值 ; 否则 ， 它 会 在 虚拟 
内 存 中 分 配 一 个 合适 的 新 内 存 区 域 。 如 果 有 可 能 的 话 ， 将 新 区 域 和 邻近 区 域 进行 合并 ， 否 则 内 核 
从 vm_area_cachep 长 字 节 (slab) 缓存 中 分 配 一 个 vm_area_struct 结构 体 ， 并 且 使 用 vma_ linkO 
辫 数 将 新 分 配 的 内 存 区 域 添 加 到 地 址 空间 的 内 存 区 域 链表 和 红 一 黑 树 中 ， 随 后 还 要 更 新 内 存 描述 
符 中 的 total_vm 域 ， 然 后 才 返 回 新 分 配 的 地 址 区 间 的 初始 地 址 。 

在 用 户 空间 可 以 通过 mmap( 系统 调用 获取 内 核 函数 do_mmap() 的 功能 。mmap0 系统 调用 
定义 如 下 : 


void * mmap2 (void *start, 
size t length, 
int prot, 
int flags, 
int fd, 
off 七 pgoff) 


由 于 该 系统 调用 是 mmap0 调用 的 第 二 种 变种 ， 所 以 起 名 为 mmap20。 最 原始 的 mmap() 
调用 中 最 后 一 个 参数 是 字 节 偏 移 量 ， 而 目前 这 个 mmap20 使 用 页 面 偏 移 作 最 后 一 个 参数 。 使 
用 页 面 偏 移 量 可 以 映射 更 大 的 文件 和 更 大 的 偏 移 位 置 。 原 始 的 mmap( 调用 由 POSIX 定义 ， 
仍然 在 C 库 中 作为 mmap0 方法 使 用 ， 但 是 内 核 中 已 经 没有 对 应 的 实现 了 ， 而 实现 的 是 新 方 
法 mmap20。 虽 然 C 库 仍 然 可 以 使 用 原始 版 本 的 映射 方法 ， 但 是 它 其 实 还 是 基于 函数 mmap20 
进行 的 ， 因 为 对 原始 mmap() 方 法 的 调用 是 通过 将 字 节 偏 移 转化 为 页 面 偏 移 ,从 而 转化 为 对 
mmap20 函数 的 调用 来 实现 的 。 


15.6 mummap() 和 do_mummap() : 删除 地 址 区 间 
do_mummap() 函数 从 特定 的 进程 地 址 空间 中 删除 指定 地 址 区 间 ， 该 函数 定义 在 文件 <linux/ 


mm.h> 中: 


int do mummap (struct mm struct *mm,unsigned long start, size t len) 


第 一 个 参数 指定 要 删除 区 域 所 在 的 地 址 空间 ， 删 除 从 地 址 start 开始 ， 长 度 为 len 字 节 的 地 址 
区 闻 。 如 果 成 功 ， 返 回 零 。 否 则 ， 返 回 负 的 错误 码 。 

系统 调用 munmap0 给 用 户 空间 程序 提供 了 一 种 从 自身 地 址 空间 中 删除 指定 地 址 区 间 的 方 
法 ， 它 和 系统 调用 mmap0 的 作用 相反 : 
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int munmap (void *start, size t length) 
该 系统 调用 定义 在 文件 mm/mmap.c 中 ， 它 是 对 do_mummap0 函数 的 一 个 简单 的 封装 : 


asmlinkage long sys_munmap (unsigned long addr, size t len) 


int ret; 
struct mm struct *mm; 


mm = Current->mm; 

down _ write{(&mm->mmap_ sem); 

ret = do munmap (mm, addr, len); 
up write{(gmm->mmap Sem); 

return ret,; 


15.7 页 表 


虽然 应 用 程序 操作 的 对 象 是 映射 到 物理 内 存 之 上 的 虚拟 内 存 ， 但 是 处 理 器 直接 操作 的 却 是 物 
理 内 存 。 所 以 当 用 程序 访问 一 个 虚拟 地 址 时 ， 首 先 必须 将 虚拟 地 址 转化 成 物理 地 址 ， 然 后 处 理 器 
才能 解析 地 址 访问 请 求 。 地 址 的 转换 工作 需要 通过 查询 页 表 才 能 完成 ， 概 括 地 讲 ， 地 址 转换 需要 
将 虚拟 地 址 分 段 ， 使 每 段 虚拟 地 址 都 作为 一 个 索引 指向 页 表 ， 而 页 表 项 则 指向 下 一 级 别 的 页 表 或 
者 指向 最 终 的 物理 页 面 。 

Linux 中 使 用 三 级 页 表 完 成 地 址 转换 。 利 用 多 级 页 表 能 够 节约 地 址 转换 需 占用 的 存放 空间 。 
如 果 利 用 三 级 页 表 转 换 地 址 ， 即 使 是 64 位 机 器 ， 占 用 的 空间 也 很 有 限 。 但 是 如 果 使 用 静态 数 
组 实现 页 表 ， 那 么 即便 在 32 位 机 器 上 ， 该 数组 也 将 占用 巨大 的 存放 空间 。Linux 对 所 有 体系 结 
构 ， 包 括 对 那些 不 支持 三 级 页 表 的 体系 结构 〈 比 如 ， 有 些 体系 结构 只 使 用 两 级 页 表 或 者 使 用 散 
列表 完成 地 址 转换 ) 都 使 用 三 级 页 表 管 理 ， 因 为 使 用 三 级 页 表 结 构 可 以 利用 “最 大 公约 数 ” 的 
思想 一 一 一 种 设计 简单 的 体系 结构 ， 可 以 按照 需要 在 编译 时 简化 使 用 页 表 的 三 级 结构 ， 比 如 只 
使 用 两 级 。 

顶级 页 表 是 页 全 局 目录 (PGD)， 它 包含 了 一 个 pgd t 类 型 数组 ， 多 数 体系 结构 中 pgd_t 类 
型 等 同 于 无 符号 长 整 型 类 型 。 PGD 中 的 表 项 指向 二 级 页 目录 中 的 表 项 : PMD。 

二 级 页 表 是 中 间 页 目录 (PMD )， 它 是 个 pmd t 类 型 数组 ， 其 中 的 表 项 指向 PTE 中 的 表 项 。 

最 后 一 级 的 页 表 简 称 页 表 ， 其 中 包含 了 pte_t 类 型 的 页 表 项 ， 该 页 表 项 指向 物理 页 面 。 

多 数 体系 结构 中 ， 搜 索 页 表 的 工作 是 由 硬件 完成 的 〈 至 少 某 种 程度 上 )。 虽 然 通常 操作 中 ， 
很 多 使 用 页 表 的 工作 都 可 以 由 硬件 执行 ， 但 是 只 有 在 内 核 正 确 设置 页 表 的 前 提 下 ， 硬 件 才能 方便 
地 操作 它们 。 图 15-1 描述 了 虚拟 地 址 通过 页 表 找 到 物理 地 址 的 过 程 。 

每 个 进程 都 有 自己 的 页 表 〈 当 然 ， 线 程 会 共享 页 表 )。 内 存 描述 符 的 pgd 域 指向 的 就 是 进程 
的 页 全 局 目录 。 注 意 ， 操 作 和 检索 页 表 时 必须 使 用 page_table_ lock 锁 ， 该 锁 在 相应 的 进程 的 内 
存 描述 符 中 ， 以 防止 竞争 条 件 。 

页 表 对 应 的 结构 体 依 赖 于 具体 的 体系 结构 ， 所 以 定义 在 文件 <asm/page.h> 中 。 
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struct mm_ struct 
\ 





图 15-1 虚拟 一 物理 地 址 查询 


由 于 几乎 每 次 对 虚拟 内 存 中 的 页 面 访问 都 必须 先 解析 它 ， 从 而 得 到 物理 内 存 中 的 对 应 地 址 ， 
所 以 页 表 操 作 的 性 能 非常 关键 。 但 不 幸 的 是 ， 搜 索 内 存 中 的 物理 地 址 速度 很 有 限 ， 因 此 为 了 加 
快 搜索 ， 多 数 体系 结构 都 实现 了 一 个 翻译 后 缓冲 器 (translate lookaside buffer，TLB )。TLB 作为 
一 个 将 虚拟 地 址 映射 到 物理 地 址 的 硬件 缓存 ， 当 请 求 访问 一 个 虚拟 地 址 时 ， 处 理 器 将 首先 检查 
TLB 中 是 否 缓存 了 该 虚拟 地 址 到 物理 地 址 的 映射 ， 如 果 在 缓存 中 直接 命中 ， 物 理 地 址 立刻 返回 ; 
否则 ， 就 需要 再 通过 页 表 搜 索 需 要 的 物理 地 址 。 

虽然 硬件 完成 了 有 关 页 表 的 部 分 工作 ， 但 是 页 表 的 管理 仍然 是 内 核 的 关键 部 分 一 一 而 且 在 
不 断 改进 。2.6 版 内 核对 页 表 管 理 的 主要 改进 是 : 从 高 端 内 存 分 配 部 分 页 表 。 今 后 可 能 的 改进 包 
括 通过 在 写 时 拷贝 〈《copy-on-wtite) 的 方式 共享 页 表 。 这 种 机 制 使 得 在 fork0 操作 中 可 由 父子 进 
程 共享 页 表 。 因 为 只 有 当 子 进程 或 父 进程 试图 修改 特定 页 表 项 时 ， 内 核 才 去 创建 该 页 表 项 的 新 找 
贝 ， 此 后 父子 进程 才 不 再 共享 该 页 表 项 。 可 以 看 到 ， 利 用 共享 页 表 可 以 消除 fork0 操作 中 页 表 找 
贝 所 带 来 的 消耗 。 


15.8 小 结 


这 章 的 内 容 不 能 不 说 是 很 “ 难 缠 ” 啦 。 其 中 ， 我 们 看 到 了 抽象 出 来 的 进程 虚拟 内 存 ， 看 到 
了 内 核 如 何 表 示 进 程 空间 (通过 mm_struct) 以 及 内 核 如 何 表示 该 空间 中 的 内 存 区 域 ( 通 过 结 
构 体 vm_area_struct)。 除 此 以 外 ， 我 们 还 了 解 了 内 核 如 何 创建 (通过 mmapO〉 和 撤销 (通过 
munmap()) 这 些 内 存 区 域 ， 最 后 还 讨论 了 页 表 。 因 为 Linux 是 一 个 基于 虚拟 内 存 的 操作 系统 ， 所 
以 这 些 概念 对 于 系统 运行 来 说 都 是 非常 基础 的 ， 一 定 要 仔细 领会 。 

第 16 章 ， 我 们 要 讨论 页 缓存 一 一 一 种 用 于 所 有 页 VO 操作 的 内 存 数据 缓存 ， 而 且 还 要 涵盖 
内 核 执行 基于 页 的 数据 回 写 。 


划 
速 缓存 和 页 回 写 


页 高 速 缓存 (cache) 是 Linux 内 核实 现 磁盘 缓存 。 它 主要 用 来 减少 对 磁盘 的 IO 操作 。 具 
体 地 讲 ， 是 通过 把 磁盘 中 的 数据 缓存 到 物理 内 存 中 ， 把 对 磁盘 的 访问 变 为 对 物理 内 存 的 访问 。 这 
一 章 将 讨论 页 高 速 缓存 与 页 回 写 (将 页 高 速 缓 存 中 的 变更 数据 刷新 回 磁盘 的 操作 )。 

磁盘 高 速 缓存 之 所 以 在 任何 现代 操作 系统 中 尤为 重要 源 自 两 个 因素 : 第 一 ， 访 问 磁盘 的 速度 
要 远 远 低 于 〈 差 好 几 个 数量 级 ) 访问 内 存 的 速度 一 一 ms 和 ns 的 差距 ， 因 此 ， 从 内 存 访问 数据 比 
从 磁盘 访问 速度 更 快 ， 若 从 处 理 器 的 LI1 和 LIL2 高 速 缓存 访问 则 更 快 。 第 二 , 数据 一 旦 被 访问 ， 就 
很 有 可 能 在 短期 内 再 次 被 访问 到 。 这 种 在 短 时 期 内 集中 访问 同一 片 数 据 的 原理 称 作 临时 局 部 原理 
(temporal locality)。 临 时 局 部 原理 能 保证 : 如 果 在 第 一 次 访问 数据 时 缓存 它 ， 那 就 极 有 可 能 在 短 
期 内 再 次 被 高 速 缓 存 命中 访问 到 高 速 缓 存 中 的 数据 )。 正 是 由 于 内 存 访问 要 比 磁盘 访问 快 得 多 ， 
再 加 上 数据 一 次 被 访问 后 更 可 能 再 次 被 访问 的 特点 ， 所 以 磁盘 的 内 存 缓存 将 给 系统 存储 性 能 带 来 
质 的 飞跃 。 


16.1 缓存 手段 


页 高 速 缓存 是 由 内 存 中 的 物理 页 面 组 成 的 ， 其 内 容 对 应 磁盘 上 的 物理 块 。 页 高 速 缓存 大 小 能 
动态 调整 一 一 它 可 以 通过 占用 空闲 内 存 以 扩张 大 小 ， 也 可 以 自我 收缩 以 缓解 内 存 使 用 压力 。 我 们 
称 正 被 缓存 的 存储 设备 为 后 备 存储 ， 因 为 缓存 背后 的 磁盘 无 疑 才 是 所 有 缓存 数据 的 归属 。 当 内 核 
开始 一 个 读 操作 〈 比 如 ， 进 程 发 起 一 个 read() 系统 调用 )， 它 首先 会 检查 需要 的 数据 是 否 在 页 高 
速 缓存 中 。 如 果 在 ， 则 放弃 访问 磁盘 ， 而 直接 从 内 存 中 读 取 。 这 个 行为 称 作 缓存 命中 。 如 果 数 据 
没有 在 缓存 中 ， 称 为 缓存 未 命中 ， 那 么 内 核 必须 调度 块 VO 操作 从 磁盘 去 读 取 数 据 。 然 后 内 核 将 
读 来 的 数据 放 入 页 缓存 中 ， 于 是 任何 后 续 相同 的 数据 读 取 都 可 命中 缓存 了 。 注 意 ， 系 统 并 不 一 定 
要 将 整个 文件 都 缓存 。 缓 存 可 以 持 有 某 个 文件 的 全 部 内 容 ， 也 可 以 存储 另 一 些 文件 的 一 页 或 者 几 
页 。 到 底 该 缓存 谁 取 决 于 谁 被 访问 到 。 


16.1.1 写 组 存 


上 面 解 释 了 在 读 操 作 过 程 中 页 高 速 缓存 的 作用 ， 那 么 在 进程 写 磁盘 时 ， 比 如 执行 writeO) 系 
统 调用 ， 缓 存 如 何 被 使 用 呢 ? 通常 来 讲 ， 缓 存 一 般 被 实现 成 下 面 三 种 策略 之 一 : 第 一 种 策略 称 为 
不 缓存 (nowrite)， 也 就 是 说 高 速 缓存 不 去 缓存 任何 写 操作 。 当 对 一 个 缓存 中 的 数据 片 进 行 写 时 ， 
将 直接 跳 过 缓存 ， 写 到 磁盘 ， 同 时 也 使 缓存 中 的 数据 失效 。 那 么 如 果 后 续 读 操作 进行 时 ， 需 要 再 
重新 从 磁盘 中 读 取 数 据 。 不 过 这 种 策略 很 少 使 用 ， 因 为 该 策略 不 但 不 去 缓存 写 操作 ， 而 且 需 要 额 
外 费力 去 使 缓存 数据 失效 。 
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第 二 种 策略 ， 写 操作 将 自动 更 新 内 存 缓存 ， 同 时 也 更 新 磁盘 文件 。 这 种 方式 ， 通 常 称 为 写 
透 缓 存 〈write-through cache)， 因 为 写 操作 会 立刻 穿 透 缓存 到 磁盘 中 。 这 种 策略 对 保持 缓存 一 
致 性 很 有 好 处 一 一 缓存 数据 时 刻 和 后 备 存储 保持 同步 ， 所 以 不 需要 让 缓存 失效 ， 同 时 它 的 实现 也 
最 简单 。 

第 三 种 策略 ， 也 是 Linux 所 采用 的 ， 称 为 “ 回 写 ” 唱 。 在 这 种 策略 下 ， 程 序 执行 写 操作 直接 
写 到 缓存 中 ， 后 端 存储 不 会 立刻 直接 更 新 ， 而 是 将 页 高 速 组 存 中 被 写 入 的 页 面 标记 成 “ 脏 ”， 并 
且 被 加 入 到 脏 页 链表 中 。 然 后 由 一 个 进程 ( 回 写 进程 》 周 期 行将 脏 页 链表 中 的 页 写 回 到 磁盘 ， 从 
而 让 磁盘 中 的 数据 和 内 存 中 最 终 一 致 。 最 后 清理 “ 脏 ” 页 标识 。 注 意 这 里 “ 脏 页 ”这 个 词 可 能 
引起 混淆 ， 因 为 实际 上 脏 的 并 非 页 高 速 缓存 中 的 数据 〈 它 们 是 干 干净 净 的 )， 而 是 磁盘 中 的 数据 
(它们 已 过 时 了 )。 也 许 更 好 的 描述 应 该 是 “未 同步 ” 吧 。 尽 管 如 此 ， 我 们 说 缓存 内 容 是 脏 的 ， 而 
不 是 说 磁盘 内 容 。 回 写 策略 通常 认为 要 好 于 写 透 策略 ， 因 为 通过 延迟 写 磁盘 ， 方 便 在 以 后 的 时 
间 内 合并 更 多 的 数据 和 再 一 次 刷新 。 当 然 ， 其 代价 是 实现 复杂 度 高 了 许多 。 


16.1.2 缓存 回 收 


缓存 算法 最 后 涉及 的 重要 内 容 是 缓存 中 的 数据 如 何 清除 ; 或 者 是 为 更 重要 的 缓存 项 腾 出 位 
置 ; 或 者 是 收缩 缓存 大 小 ， 腾 出 内 存 给 其 他 地 方 使 用 。 这 个 工作 ， 也 就 是 决定 缓存 中 什么 内 容 将 
被 清除 的 策略 ， 称 为 缓存 回收 策略 。Linux 的 缓存 回收 是 通过 选择 干净 页 (不 脏 〉 进行 简单 替换 。 
如 果 缓 存 中 没有 足够 的 干净 页 面 ， 内 核 将 强制 地 进行 回 写 操作 ， 以 腾 出 更 多 的 干净 可 用 页 。 最 难 
的 事情 在 于 决定 什么 页 应 该 回收 。 理 想 的 回收 策略 应 该 是 回收 那些 以 后 最 不 可 能 使 用 的 页 面 。 当 
然 要 知道 以 后 的 事情 你 必须 是 先知 。 也 正 是 这 个 原因 ， 理 想 的 回收 策略 称 为 预测 算法 。 但 这 种 策 
略 太 理 想 了 ， 无 法 真正 实现 。 

1. 最 近 最 少 使 用 

缓存 回收 策略 通过 所 访问 的 数据 特性 ， 尽 量 追 求 预测 效率 。 最 成 功 的 算法 〈 特 别 是 对 于 通用 
目的 的 页 高 速 缓存 ) 称 作 最 近 最 少 使 用 算法 ， 简 称 LRU。 LRU 回收 策略 需要 跟踪 每 个 页 面 的 访 
问 踪 迹 〈 或 者 至 少 按 照 访问 时 间 为 序 的 页 链表 )， 以 便 能 回收 最 老 时 间 戳 的 页 面 〈 或 者 回收 排序 
链表 头 所 指 的 页 面 )。 该 策略 的 良好 效果 源 自 于 缓存 的 数据 越久 未 被 访问 ， 则 越 不 大 可 能 近期 再 
被 访问 ， 而 最 近 被 访问 的 最 有 可 能 被 再 次 访问 。 但 是 ，LRU 策略 并 非 是 放 之 四 海 而 皆 准 的 法 则 ， 
对 于 许多 文件 被 访问 一 次 ， 再 不 被 访问 的 情景 ，LRU 尤其 失败 。 将 这 些 页 面 放 在 LRU 链 的 顶端 
显然 不 是 最 优 ， 当 然 ， 内 核 并 没 办 法 知道 一 个 文件 只 会 被 访问 一 次 ， 但 是 它 却 知道 过 去 访问 了 多 
少 次 。 

2. 双 链 策略 

Linux 实现 的 是 一 个 修改 过 的 LRU， 也 称 为 双 链 策略 。 和 以 前 不 同 ，Linux 维护 的 不 再 是 
一 个 LUR 链表 ， 而 是 维护 两 个 链表 : 活跃 链表 和 非 话 跃 链表 。 处 于 活跃 链表 上 的 页 面 被 认为 是 


日 ”有 些 书 或 者 操作 系统 称 这 个 策略 是 copy-write 或 者 write-behind 缓存 。 所 有 这 些 命名 都 是 同义词 。 Linux 和 其 
他 Unix 系统 使 用 write-back 称谓 来 描述 缓存 策略 ， 使 用 writeback 称谓 描述 写 缓存 数据 到 后 备 存储 这 一 动作 。 
本 书 遵 循 这 种 称谓 。 
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“ 热 ” 的 且 不 会 被 换 出 ， 而 在 非 活 跃 链表 上 的 页 面 则 是 可 以 被 换 出 的 。 在 活跃 链表 中 的 页 面 必须 
在 其 被 访问 时 就 处 于 非 活 跃 链表 中 。 两 个 链表 都 被 伪 LRU 规则 维护 : 页 面 从 尾部 加 入 ， 从 头 部 
移 除 ， 如 同 队 列 。 两 个 链表 需要 维持 平衡 一 一 如 果 活 跃 链表 变 得 过 多 而 超过 了 非 活 跃 链表 ， 那 
么 活跃 链表 的 头 页 面 将 被 重新 移 回 到 非 活跃 链表 中 ， 以 便 能 再 被 回收 。 双 链表 策略 解决 了 传统 
LRU 算法 中 对 仅 一 次 访问 的 窘境 。 而 且 也 更 加 简单 的 实现 了 伪 LRU 语义 。 这 种 双 链 表 方 式 也 称 
作 LUR/2。 更 普遍 的 是 n 个 链表 ， 故 称 LRU/n。 

我 们 现在 知道 页 缓存 如 何 构建 (通过 读 和 写 )， 如 何在 写 时 被 同步 (通过 回 写 ) 以 及 旧 数 
据 如 何 被 回收 来 容纳 新 数据 (通过 双 链 表 )。 现 在 让 我 们 看 看 真实 世界 应 用 场景 中 ， 页 高 速 缓 
存 如 何 帮助 系统 。 假 定 你 在 开发 一 个 很 大 的 软件 工程 〈 比 如 Linux 内 核 ) 那么 你 将 有 大 量 的 源 
文件 被 打开 ， 只 要 你 打开 读 取 源 文 件 ， 这 些 文件 就 将 被 存储 在 页 高 速 缓 存 中 。 只 要 数据 被 缓 
存 ， 那 么 从 一 个 文件 跳 到 另 一 个 文件 将 瞬间 完成 。 当 你 编辑 文件 时 ， 存 储 文件 也 会 瞬间 完成 ， 
因为 写 操作 只 需要 写 到 内 存 ， 而 不 是 磁盘 。 当 你 编译 项 目 时 ， 缓 存 的 文件 将 使 得 编译 过 程 更 少 
访问 磁盘 ， 所 以 编译 速度 也 就 更 快 了 。 如 果 整 个 源码 树 太 大 了 ， 无 法 一 次 性 放 入 内 存 ， 那 么 其 
中 一 部 分 必须 被 回收 一 一 由 于 双 和 链表 策略 ， 任 何 回 收 的 文件 都 将 处 于 非 活 跃 链表 ， 而 且 不 大 可 
能 是 你 正在 编译 的 文件 。 幸运 的 是 ， 在 你 没 在 编译 的 时 候 ， 内 核 会 执行 页 回 写 ， 刷 新 你 所 修 
改 文件 的 磁盘 副本 。 由 此 可 见 ， 缓 存 将 极 大 地 提高 系统 性 能 。 为 了 看 到 差别 ， 对 比 一 下 缓存 冷 
(cache cold) 时 (也 就 是 说 重启 后 ， 编 译 你 的 大 软件 工程 的 时 间 〉 和 缓存 热 (cache warm) 时 
的 差别 吧 。 


16.2 Linux 页 高 速 缓存 


从 名 字 可 以 看 出 ， 页 高 速 缓存 缓存 的 是 内 存 页 面 。 缓 存 中 的 页 来 自 对 正规 文件 、 块 设备 文件 
和 内 存 映 射 文件 的 读 写 。 如 此 一 来 ， 页 高 速 缓 存 就 包含 了 最 近 被 访问 过 的 文件 的 数据 块 。 在 执行 
一 个 VO 操作 前 (比如 read0 9 操作 )， 内 核 会 检查 数据 是 否 已 经 在 页 高 速 缓存 中 了 ， 如 果 所 需要 
的 数据 确实 在 高 速 缓存 中 ， 那 么 内 核 可 以 从 内 存 中 迅速 地 返回 需要 的 页 ， 而 不 再 需要 从 相对 较 慢 
的 磁盘 上 读 取 数 据 。 在 接 下 来 的 章节 里 ， 我 们 将 剖析 具体 的 数据 结构 以 及 内 核 如 何 使 用 它们 管理 
缓存 。 


16.2.1 address_space 对 象 


在 页 高 速 缓存 中 的 页 可 能 包含 了 多 个 不 连续 的 物理 磁盘 块 8。 也 正 是 由 于 页 面 中 映射 的 磁盘 
块 不 一 定 连 续 ， 所 以 在 页 高 速 缓存 中 检查 特定 数据 是 否 已 经 被 缓存 是 件 颇 为 困难 的 工作 。 因 为 不 
能 用 设备 名 称 和 块 号 来 做 页 高 速 缓 存 中 的 数据 的 索引 ， 要 不 然 这 将 是 最 简单 的 定位 办 法 。 

另外 ，Linux 页 高 速 缓存 对 被 缓存 的 页 面 范围 定义 非常 宽泛 。 实 际 上 ， 在 最 初 System V 


日 ”如 你 在 第 13 章 所 见 ， 并 非 read0、write0 系统 调用 执行 实际 的 页 IO 操作 ， 而 是 通过 文件 系统 提供 的 特定 操 
作 fle->f op->read0 和 file->f op->write0 完成 。 

四 比如 ，x86 体系 结构 中 一 个 物理 页 大 小 是 4KB。 而 大 多 数 文件 系统 的 块 大 小 仅仅 512KB。 所 以 八 个 块 才 可 以 
填 满 一 个 页 面 。 另 外 因为 文件 本 身 可 能 分 布 在 磁盘 上 的 各 个 位 置 ， 所 以 页 面 中 映射 的 块 也 不 需要 连续 。 
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Release 4 引入 页 高 速 缓存 时 ， 仅 仅 只 用 作 缓 存 文件 系统 数据 ， 所 以 SVR4 的 页 高 速 缓存 使 用 它 
的 等 价 文件 对 象 〈 称 为 vnode 结构 体 ) 管理 页 高 速 缓存 。Linux 页 高 速 缓存 的 目标 是 缓存 任何 基 
于 页 的 对 象 ， 这 包含 各 种 类 型 的 文件 和 各 种 类 型 的 内 存 映射 。 

虽然 Linux 页 高 速 缓存 可 以 通过 扩展 inode 结构 体 〈 见 第 13 章 ) 支持 页 IO 操作 ， 但 这 种 
做 法 会 将 页 高 速 缓存 局 限于 文件 。 为 了 维持 页 高 速 缓存 的 普遍 性 〈 不 应 该 将 其 绑 定 到 物理 文件 
或 者 inode 结构 体 )，Linux 页 高 速 缓存 使 用 了 一 个 新 对 象 管理 缓存 项 和 页 IO 操作 。 这 个 对 象 
是 address_space 结构 体 。 该 结构 体 是 第 15 章 介绍 的 虚拟 地 址 vm_area_struct 的 物理 地 址 对 等 体 。 
当 一 个 文件 可 以 被 10 个 vm_area_struct 结构 体 标识 〈 比 如 有 5 个 进程 ， 每 个 调用 mmap0 映射 它 
两 次 )， 那 么 这 个 文件 只 能 有 一 个 address_space 数据 结构 一 一 也 就 是 文件 可 以 有 多 个 虚拟 地 址 ， 
但 是 只 能 在 物理 内 存 有 一 份 。 与 Linux 内 核 中 其 他 结构 一 样 ，address_space 也 是 文 不 对 题 ， 也 许 
更 应 该 叫 它 page_cache_entity 或 者 physical pages_of a file。 

该 结构 定义 在 文件 <linux/fs.h> 中 ， 下 面 给 出 具体 形式 : 


struct address space { 


struct inode *host; /* 拥有 节点 */ 

struct radix tree root page tree; /* 包含 全 部 页 面 的 radix 树 */ 
spinlock t tree lock; /* 保护 page_tree 的 自 旋 锁 */ 
unsigned int i mmap writable; /* VM_SHARED 计数 */ 

struct prio tree root i_mmap; /* 私有 映射 链表 */ 

struct list head i mmap nonlinear; /* VM_NONLINEAR 链表 */ 
spinlock t i mmap lock; /* 保护 i_mmap 的 自 旋 锁 */ 
atomic _t truncate_count; /* 截断 计数 */ 

unsigned long nrpages; /* 页 总 数 */ 

pgoff 七 writeback index; /* 回 写 的 起 始 偏 移 */ 

struct address_space operations *a ops; /* 操作 表 */ 

unsigned long flags; /* gfp_mask 掩 码 与 错误 标识 */ 
struct backing dev info *backing dev_info; /* 预 读 信息 */ 

spinlock t private lock; /* 私有 address_space 锁 */ 
struct list head private list; /* 私有 address_space 链表 */ 
struct address_space *assoc _ mapping; /* 相关 的 缓 仲 */ 


}; 


其 中 i_mmap 字段 是 一 个 优先 搜索 树 ， 它 的 搜索 范围 包含 了 在 address_space 中 所 有 共享 的 
与 私有 的 映射 页 面 。 优 先 搜索 树 是 一 种 巧妙 地 将 堆 与 radix 树 结合 9 的 快速 检索 树 。 回 忆 早 些 提 
到 的 : 一 个 被 缓存 的 文件 只 和 一 个 address_space 结构 体 相 关联 ， 但 它 可 以 有 多 个 vm_area_struct 
结构 体 一 一 一 物理 页 到 虚拟 页 是 个 一 对 多 的 映射 。i_map 字段 可 帮助 内 核 高 效 地 找到 关联 的 被 组 
存 文件 。 

address space 页 总 数 由 nrpages 字段 描述 。 

address_space 结构 往往 会 和 某 些 内 核对 象 关联 。 通 常情 况 下 ， 它 会 与 一 个 索引 节点 (inode) 
关联 ， 这 时 host 域 就 会 指向 该 索引 节点 ; 如 果 关 联 对 象 不 是 一 个 索引 节点 的 话 ， 比 如 address_ 
space 和 swapper 关联 时 ，host 域 会 被 置 为 NULL。 


日 在 内 核 中 采用 Raidix 优先 搜索 树 是 由 Edward M. McCreight 1985 年 5 月 于 SIAM 计算 机 杂志 第 14 期， 第 2 
集 ，257-276 页 中 提出 的 。 
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16.2.2 address_space 操作 


a_ops 域 指 向 地 址 空间 对 象 中 的 操作 函数 表 ， 这 与 VFS 对 象 及 其 操作 表 关 系 类 似 ， 操 作 函 数 
表 定 义 在 文件 <linux/fs.h> 中 ， 由 address_space_operations 结构 体 来 表示 : 


struct address space operations { 
int (*writepage) (struct page *, struct writeback control *); 
int (*readpage) (struct file *, struct page *); 
int (*sync page) (struct page *); 
int (*writepages) (struct address space *, 
struct writeback control *); 
int (*set page dirty) (struct page *); 
int (*readpages) (struct file *, struct address space *, 
struct list head *, unsigned); 
int (*write begin) (struct file *, struct address space *mapping, 
loff t pos, unsigned len, unsigned flags, 
struct page **pagep, void **fsdata) ; 
int (*write end) (struct file *, struct address_ space *mapping, 
loff t pos, unsigned len, unsigned copied, 
struct page *page, void *fsdata); 
sector t (*bmap) (struct address space *, sector t); 
int (*invalidatepage) (struct page *, unsigned long); 
int (*releasepage) (struct page *, int); 
int (*direct I0) (int, struct kiocb *, const struct iovec *, 
loff t, unsigned long); 
int (*get xip mem) (struct address space *, pgoff t, int, 
void **, unsigned long *); 
int (*migratepage) (struct address space *, 
struct page *, struct page *); 
int (*launder page) (Struct page *); 
int (*is partially uptodate) (struct page *, 
read descriptor t *, 
unsigned long); 
int (*error remove page) [struct address_ space *, 
struct page *); 


}; 

这 些 方 法 指针 指向 那些 为 指定 缓存 对 象 实现 的 页 VO 操作 。 每 个 后 备 存储 都 通过 自己 的 
address_space_operation 描述 自己 如 何 与 页 高 速 缓存 交互 。 比 如 ext3 文件 系统 在 文件 fs/ext3/ 
inode.c 中 定义 自己 的 操作 表 。 这 些 方法 提供 了 管理 页 高 速 缓存 的 各 种 行为 ， 包 括 最 常用 的 读 页 
到 缓存 、 更 新 缓存 数据 。 这 里 面 rradpage0 和 writepage0 两 个 方法 最 为 重要 。 我 们 下 面 就 来 看 看 
一 个 页 面 的 读 操作 会 包含 哪些 步骤 。 首 先 linux 内 核 试 图 在 页 高 速 缓存 中 找到 需要 的 数据 ; find_ 
get_page0 方法 负责 完成 这 个 检查 动作 。 一 个 address_space 对 象 和 一 个 偏 移 量 会 传 给 fnd_get_ 
page0 方法 ， 用 于 在 页 高 速 缓存 中 搜索 需要 的 数据 : 


page = find get page (mapping ,index); 


这 里 mapping 是 指定 的 地 址 空间 ，index 是 文件 中 的 指定 位 置 ， 以 页 面 为 单位 (是 的 ， 称 
address_space 结构 体 为 mapping， 又 是 一 个 容易 混淆 的 命名 ， 虽 然 我 也 在 重复 这 种 内 核 命名 不 一 
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致 的 问题 ， 但 我 还 是 鄙视 它 )。 如 果 搜 索 的 页 并 没 在 高 速 缓存 中 ，fnd_get page() 将 会 返回 一 个 
NULL， 并 且 内 核 将 分 配 一 个 新 页 面 ， 然 后 将 之 前 搜索 的 页 加 入 到 页 高 速 缓存 中 。 


struct page *page; 
int error; 


/* 分 配 页 …*/ 
page = page cache alloc cold(mapping); 
if(!page) 

/* 内 存 分 配 出 错 */ 


/*…… 然 后 将 其 加 入 到 页 面 调整 缓存 */ 
error = add to page cache lrul(page,mapping,index,GFP KERNEL) ; 
if (error) 


/* 页 面 被 加 入 到 页 面 高 速 缓存 时 ， 出 错 */ 
最 后 ， 需 要 的 数据 从 磁盘 被 读 人 ， 再 被 加 入 页 高 速 缓存 ， 然 后 返回 给 用 户 : 
error= mapping->a_ops->readpage (fle,page) ; 
写 操作 和 读 操作 有 少许 不 同 。 对 于 文件 映射 来 说 ， 当 页 被 修改 了 ，VM 仅仅 需要 调用 : 
SetPageDirty (page); 


内 核 会 在 晚 些 时 候 通 过 writepage0 方法 把 页 写 出 。 对 特定 文件 的 写 操作 比较 复杂 ， 它 的 代 
码 在 文件 mm/filemap.c 中 ， 通 常 写 操作 路 径 要 包含 以 下 各 步 : 

page = grab_cache_page (mapping, index,&cached_ page,&lru pvec); 

status = a_ops->prepare_write (file,page,offset,offset+bytes); 


page fault = filemap_copy_from user (page,offset,buf,bytes); 
status = a_ops->commit write (file,page,offset,offset+bytes); 


首先 ， 在 页 高 速 缓 存 中 搜索 需要 的 页 。 如 果 需 要 的 页 不 在 高 速 缓 在 中， 那么 内 核 在 高 速 缓 存 
中 新 分 配 一 空闲 项 ; 下 一 步 ， 内 核 创建 一 个 写 请 求 ; 接着 数据 被 从 用 户 空间 拷贝 到 了 内 核 缓冲 ; 
最 后 将 数据 写 人 磁盘 。 

因为 所 有 的 页 VO 操作 都 要 执行 上 面 这 些 步 晤 ， 这 就 保证 了 所 有 的 页 IO 操作 必然 都 是 通过 
页 高 速 缓存 进行 的 。 因 此 ， 内 核 也 总 是 试图 先 通过 页 高 速 缓存 来 满足 所 有 的 读 请 求 。 如 果 在 页 高 
速 缓存 中 未 搜索 到 需要 的 页 ， 则 内 核 将 从 磁盘 读 入 需要 的 页 ， 然 后 将 该 页 加 入 到 页 高 速 缓存 中 ; 
对 于 写 操作 ， 页 高 速 缓存 更 像 是 一 个 存储 平台 ， 所 有 要 被 写 出 的 页 都 要 加 入 页 高 速 缓存 中 。 


16.2.3 基 树 


因为 在 任何 页 VO 操作 前 内 核 都 要 检查 页 是 否 已 经 在 页 高 速 缓存 中 了 ， 所 以 这 种 频繁 进行 的 
检查 必须 迅速 、 高 效 ， 否 则 搜索 和 检查 页 高 速 缓存 的 开销 可 能 抵消 页 高 速 缓 存 带 来 的 好 处 (至 少 
在 缓存 命中 率 很 低 的 时 候 ， 搜 索 的 开销 足以 抵消 以 内 存 代替 磁盘 进行 检索 数据 带 来 的 好 处 )。 

正如 在 16.2.2 节 所 看 到 的 ， 页 高 速 缓存 通过 两 个 参数 address_space 对 象 加 上 一 个 偏 移 量 进 
行 搜索 。 每 个 address_space 对 象 都 有 唯一 的 基 树 (radix tree)， 它 保存 在 page_tree 结构 体 中 。 基 
树 是 一 个 二 又 树 ， 只 要 指定 了 文件 偏 移 量 ， 就 可 以 在 基 树 中 迅速 检索 到 希望 的 页 。 页 高 速 缓存 的 
搜索 函数 find_get_ page0 要 调用 函数 radix_tree_lookup0， 该 函数 会 在 指定 基 树 中 搜索 指定 页 面 。 
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基 树 核心 代码 的 通用 形式 可 以 在 文件 lib/radix-tree.c 中 找到 。 另 外 ， 要 想 使 用 基 树 ， 需 要 包 
含 头 文件 <linux/radix_tree.h>。 


16.2.4 ”以 前 的 页 散 列 表 


在 2.6 版 本 以 前 ， 内 核 页 高 速 缓存 不 是 通过 基 树 检索 ， 而 是 通过 一 个 维护 了 系统 中 所 有 页 的 
全 局 散 列表 进行 检索 。 对 于 给 定 的 一 个 键 值 ， 该 散 列表 会 返回 一 个 双向 链表 的 入 口 对 应 于 这 个 所 
给 定 的 值 。 如 果 需 要 的 页 贮存 在 缓存 中 ， 那 么 链表 中 的 一 项 就 会 与 其 对 应 。 否 则 ， 页 就 不 在 页 面 
高 速 缓 存 中 ， 散 列 函数 返回 NULL。 | 

全 局 散 列表 主要 存在 四 个 问题 : 

* 由 于 使 用 单个 的 全 局 锁 保护 散 列表 ， 所 以 即使 在 中 等 规模 的 机 器 中 ， 锁 的 争 用 情况 也 会 相 

当 严 重 ， 造 成 性 能 受 损 。 

“ 由 于 散 列 表 需 要 包含 所 有 页 高 速 缓存 中 的 页 ， 可 是 搜索 需要 的 只 是 和 当前 文件 相关 的 那些 

页 ， 所 以 散 列 表 包 含 的 页 面相 比 搜索 需要 的 页 面 要 大 得 多 。 

* 如 果 散 列 搜索 失败 (也 就 是 给 定 的 页 不 在 页 高 速 缓 存 中 )， 执 行 速度 比 希 望 的 要 慢 得 多 ， 

这 是 因为 检索 必须 遍历 指定 散 列 键 值 对 应 的 整个 链表 。 

* 散 列表 比 其 他 方法 会 消耗 更 多 的 内 存 。 

2.6 版 本 内 核 中 引入 基于 基 桂 的 页 高 速 缓存 来 解决 这 些 问题 


16.3 ”缓冲 区 高 速 缓 存 


独立 的 磁盘 块 通过 块 IO 缓冲 也 要 被 存 入 页 高 速 缓 在。 回忆 一 下 第 14 章 ， 一 个 缓冲 是 一 个 
物理 磁盘 块 在 内 存 里 的 表示 。 缓 冲 的 作用 就 是 映射 内 存 中 的 页 面 到 磁盘 块 ， 这 样 一 来 页 高 速 缓存 
在 块 VO 操作 时 也 减少 了 磁盘 访问 ， 因 为 它 缓 存 磁盘 块 和 减少 块 TO 操作 。 这 个 缓存 通常 称 为 缓 
钟 区 高 速 缓存 ， 虽 然 实 现 上 它 没 有 作为 独立 缓存 ， 而 是 作为 页 高 速 缓存 的 一 部 分 。 

块 VO 操作 一 次 操作 一 个 单独 的 磁盘 块 。 普 遍 的 块 IO 操作 是 读 写 i 节 点 。 内 核 提供 了 
bread0 函数 实现 从 磁盘 读 一 个 块 的 底层 操作 。 通 过 缓存 ， 磁 盘 块 映射 到 它们 相关 的 内 存 页 ， 并 
缓存 到 页 高 速 缓 存 中 。 

缓冲 和 页 高 速 缓存 并 非 天 生 就 是 统一 的 ，2.4 内 核 的 主要 工作 之 一 就 是 统一 它们 。 在 更 早 的 
内 核 中 ， 有 两 个 独立 的 磁盘 缓存 : 页 高 速 缓存 和 缓冲 区 高 速 缓 在 。 前 者 缓存 页 面 ， 后 者 缓存 缓冲 
区 ， 这 两 个 缓存 并 没有 统一 。 一 个 磁盘 块 可 以 同时 存 于 两 个 缓存 中 ， 这 导致 必须 同步 操作 两 个 组 
冲 中 的 数据 ， 而 且 浪费 了 内 存 ， 去 存储 重复 的 缓存 项 。 今 天 我 们 只 有 一 个 磁盘 缓存 ， 即 页 高 速 组 
存 。 虽 然 如 此 ， 内 核 仍然 需要 在 内 存 中 使 用 缓冲 来 表示 磁盘 块 ， 幸 好 ， 缓 冲 是 用 页 映射 块 的， 所 
以 它 正好 在 页 高 速 缓存 中 。 


16.4 flusher 线程 


由 于 页 高 速 缓存 的 缓存 作用 ， 写 操作 实际 上 会 被 延迟 。 当 页 高 速 缓存 中 的 数据 比 后 台 存 储 的 
数据 更 新 时 ， 该 数据 就 称 作 脏 数据 。 在 内 存 中 累积 起 来 的 脏 页 最 终 必须 被 写 回 磁盘 。 在 以 下 3 种 
情况 发 生 时 ， 脏 页 被 写 回 磁盘 : 
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*。 当 空闲 内 存 低 于 一 个 特定 的 阔 值 时 ， 内 核 必须 将 脏 页 写 回 磁盘 以 便 释放 内 存 ， 因 为 只 有 干 

净 《〈 不 脏 的 ) 内 存 才 可 以 被 回收 。 当 内 存 干净 后 ， 内 核 就 可 以 从 缓存 清理 数据 ， 然 后 收缩 

缓存 ， 最 终 释 放出 更 多 的 内 存 。 

* 当 脏 页 在 内 存 中 驻 留 时 间 超过 一 个 特定 的 阔 值 时 ， 内 核 必须 将 超时 的 脏 页 写 回 磁盘 ， 以 确 

保 脏 页 不 会 无 限期 地 驻 留 在 内 存 中 。 

”。 当 用 户 进 程 调用 syncO 和 fsync0 系统 调用 时 ， 内 核 会 按 要 求 执 行 回 写 动作 。 

上 面 三 种 工作 的 目的 完全 不 同 。 实 际 上 ， 在 旧 内 核 中 ， 这 是 由 两 个 独立 的 内 核 线程 (请 看 后 
面 章节 ) 分 别 完成 的 。 但 是 在 2.6 内 核 中 ， 由 一 群 9 内 核 线程 〈fiusher 线程 ) 执行 这 三 种 工作 。 

首先 ，flusher 线程 在 系统 中 的 空闲 内 存 低 于 一 个 特定 的 阔 值 时 ， 将 脏 页 刷新 写 回 磁盘 。 该 后 
台 回 写 例 程 的 目的 在 于 一 一 在 可 用 物理 内 存 过 低 时 ， 释 放 脏 页 以 重新 获得 内 存 。 这 个 特定 的 内 存 
阅 值 可 以 通过 dirty_background_ratio sysctl 系统 调用 设置 。 当 空闲 内 存 比 阔 值 dirty_background_ 
ratio 还 低 时 ， 内 核 便 会 调用 函数 fusher threads() 9 唤醒 一 个 或 多 个 ftusher 线程 ， 随 后 fusher 线 
程 进一步 调用 函数 bdi_writeback _all0 开始 将 脏 页 写 回 磁盘 。 该 函数 需要 一 个 参数 一 一 试图 写 回 
的 页 面 数目 。 函 数 连 续 地 写 出 数据 ， 直 到 满足 以 下 两 个 条 件 : 

"已 经 有 指定 的 最 小 数目 的 页 被 写 出 到 磁盘 。 

* 空 闪 内 存 数 已 经 回升 ， 超 过 了 阐 值 dirty_background _ratio。 

上 述 条 件 确 保 了 flusher 线程 操作 可 以 减轻 系统 中 内 存 不 足 的 压力 。 回 写 操 作 不 会 在 达到 这 
两 个 条 件 前 停止 ， 除 非 刷 新 者 线程 写 回 了 所 有 的 脏 页 ， 没 有 剩 下 的 脏 页 可 再 被 写 回 了 。 

为 了 满足 第 二 个 目标 ，flusher 线程 后 台 例 程 会 被 周期 性 唤醒 〈 和 空闲 内 存 是 否 过 低 无 关 )， 
将 那些 在 内 存 中 驻 留 时 间 过 长 的 脏 页 写 出 ， 确 保 内 存 中 不 会 有 长 期 存在 的 脏 页 。 如 果 系 统 发 生 山 
涡 ， 由 于 内 存 处 于 混乱 之 中 ， 所 以 那些 在 内 存 中 还 没 来 得 及 写 回 磁盘 的 脏 页 就 会 丢失 ， 所 以 周 
期 性 同步 页 高 速 缓存 和 磁盘 非常 重要 。 在 系统 启动 时 ， 内 核 初始 化 一 个 定时 器 ， 让 它 周 期 地 唤 
醒 flusher 线程 ， 随 后 使 其 运行 函数 wb_writeback(y。 该 函数 将 把 所 有 驻 留 时 间 超 过 dirty_expire 
interval ms 的 脏 页 写 回 。 然 后 定时 器 将 再 次 被 初始 化 为 dirty_expire centisecs 秒 后 唤醒 flusher 线 
程 。 总 而 言 之 ，flusher 线程 周期 性 地 被 唤醒 并 且 把 超过 特定 期 限 的 脏 页 写 回 磁盘 。 

系统 管理 员 可 以 在 /proc/sys/vm 中 设置 回 写 相关 的 参数 ， 也 可 以 通过 sysctl 系统 调用 设置 它 
们 。 表 16-1 列 出 了 与 pdflush 相关 的 所 有 可 设置 变量 。 


表 16-1 页 回 写 设置 


变 量 描述 
dirty_background_ratio 占 全 部 内 存 的 百分比 。 当 内 存 中 空闲 页 达到 这 个 比例 时 ，pdfush 线程 开始 回 写 脏 页 
dirty_expire_interval 该 数值 以 百 分 之 一 秒 为 单位 ， 它 描述 超时 多 久 的 数据 将 被 周期 性 执行 的 pdflush 线程 写 出 
dirty_ratio 占 全 部 内 存 百分比 ， 当 一 个 进程 产生 的 脏 页 达到 这 个 比例 时 ， 就 开始 被 写 出 
dirty_writeback interval 该 数值 以 百 分 之 一 秒 为 单位 , 它 描述 pdflush 线程 的 运行 频率 


laptop mode 一 个 布尔 值 ， 用 于 控制 膝 上 型 计算 机 模式 ， 具 体 请 见 后 续 内 容 


日 术语 “ 群 ” 通 常 在 计算 机 科学 中 指 的 是 一 组 可 以 并 行 执行 的 事情 。 
日 ”是 的 ， 它 的 确 命 名 错 了 ， 它 应 该 称 为 wakeup_bdftushO。 原 因 请 看 后 面 关 于 这 个 调用 的 继承 部 分 。 
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fusher 线程 的 实现 代码 在 文件 mm/page-writeback.c 和 mm/backing-dev.c 中 ， 回 写 机 制 的 实 
现代 码 在 文件 fs/fs-writeback.c 中 。 


16.4.1 膝 上 型 计算 机 模式 


膝 上 型 计算 机 模式 是 一 种 特殊 的 页 回 写 策略 ， 该 策略 主要 意图 是 将 硬盘 转动 的 机 械 行为 最 小 
化 ， 人 允许 硬盘 尽 可 能 长 时 间 地 停 讨 ， 以 此 延长 电 字 供电 时 间 。 该 模式 可 通过 /proc/sys/vnylaptop 
mode 文件 进行 配置 。 通 常 ， 上 述 配 置 文件 内 容 为 0， 也 就 是 说 膝 上 型 计算 机 模式 关闭 ， 如 果 需 
要 启用 膝 上 型 计算 机 模式 ， 则 向 配置 文件 中 写 入 1。 

膝 上 型 计算 机 模式 的 页 回 写 行为 与 传统 方式 相 比 只 有 一 处 变化 。 除 了 当 缓 存 中 的 页 面 太 旧时 
要 执行 回 写 脏 页 以 外 ，flusher 还 会 找 准 磁盘 运转 的 时 机 ， 把 所 有 其 他 的 物理 磁盘 LO、 刷新 脏 缓 
钟 等 通通 写 回 到 磁盘 ， 以 便 保 证 不 会 专门 为 了 写 磁盘 而 去 主动 激 话 磁盘 运行 。 

上 述 回 写 行为 变化 要 求 dirty_expire interval 和 dirty_writeback interval 两 阔 值 必须 设置 得 更 
大 ， 比 如 10 分钟。 因为 磁盘 运转 并 不 很 频繁 ， 所 以 用 这 样 长 的 回 写 延 迟 就 能 保证 膝 上 型 计算 机 
模式 可 以 等 到 磁盘 运转 机 会 写 人 数据 。 因 为 关闭 磁盘 驱动 器 是 节 电 的 重要 手段 ， 膝 上 模式 可 以 延 
长 膝 上 计算 机 依靠 电池 的 续航 能 力 。 其 坏处 则 是 系统 崩溃 或 者 其 他 错误 会 使 得 数据 丢失 。 

多 数 Linux 发 布 版 会 在 计算 机 接 上 电池 或 拔 掉 电池 时 ， 自 动 开启 或 禁止 膝 上 型 计算 机 模式 以 
及 其 他 需要 的 回 写 可 调节 开关 。 因 此 机 器 可 在 使 用 电池 电源 时 自动 进入 膝 上 型 计算 机 模式 ， 而 在 
插 上 交流 电源 时 恢复 到 常规 的 页 回 写 模式 。 


16.4.2 历史 上 的 bdflush、kupdated 和 pdflush 


在 2.6 版 本 前 ，fiusher 线程 的 工作 是 分 别 由 bdflush 和 kupdated 两 个 线程 共同 完成 。 

当 可 用 内 存 过 低 时 ，bdflush 内 核 线 程 在 后 台 执 行 脏 页 回 写 操作 。 类 似 flusher， 它 也 有 一 
组 闭 值 参数 ， 当 系统 中 空闲 内 存 消 耗 到 特定 冰 值 以 下 时 ，bdflush 线程 就 被 wakeup_bdflush() 
函数 唤醒 。 

bdflush 和 当前 的 flusher 线程 之 间 存 在 两 个 主要 区 别 。 第 一 个 区 别 是 系统 中 只 有 一 个 bdflush 
后 台 线 程 ， 而 fusher 线程 的 数目 却 是 根据 磁盘 数量 变化 的 〈 这 在 16.5 节 中 会 谈 到 ) ; 第 二 个 区 别 
是 bdflush 线程 基于 缓冲 ， 它 将 脏 缓 促 写 回 磁盘 。 相 反 ，fiusher 线程 基于 页 面 ， 它 将 整个 脏 页 写 
回 磁盘 。 当 然 ， 页 面 可 能 包含 缓冲 ， 但 是 实际 VO 操作 对 象 是 整 页 ， 而 不 是 块 。 因 为 页 在 内 存 中 
是 更 普遍 和 普通 的 概念 ， 所 以 管理 页 相 比 管理 块 要 简单 。 

因为 只 有 在 内 存 过 低 和 缓冲 数量 过 大 时 ，bdflush 例 程 才 刷 新 缓冲 ， 所 以 kupdated 例 程 被 引 
入 ， 以 便 周期 地 写 回 脏 页 。 它 和 pdflush 线程 的 wb_writeback() 函数 提供 同样 的 服务 。 

在 2.6 内 核 中 ，buflush 和 kupdated 已 让 路 给 了 pdflush 线程 page dirty flush 〈 比 以 前 
两 个 更 容易 令 人 混淆 的 名 字 ) 的 缩写 。Pdflush 线程 的 执行 和 今天 的 flusher 线程 类 似 。 其 主要 
区 别 在 于 ，pdflush 线程 数目 是 动态 的 ， 默 认 是 2 个 到 8 个 ， 具 体 多 少 取决 于 系统 IO 的 负载 。 
Pdflush 线程 与 任何 任务 都 无 关 ， 它 们 是 面向 系统 所 有 磁盘 的 全 局 任务 。 这 样 做 的 好 处 是 实现 
简单 ， 可 带 来 的 问题 是 ，pdflush 线程 很 容易 在 拥塞 的 磁盘 上 绊 住 ， 而 现代 硬件 发 生 拥塞 更 是 
家 常 便 饭 。 采 用 每 个 磁盘 一 个 刷新 线程 可 以 使 得 IO 操作 同步 执行 ， 简 化 了 拥塞 逻辑 ， 也 提升 





页 高 于 组 首 布 页 回 写 277 





了 性 能 。Flusher 线程 在 2.6.32 内 核 系 列 中 取代 了 pdflush 线程 〈 针 对 每 个 磁盘 独立 执行 回 写 操 
作 是 其 和 pdflush 的 主要 区 别 )。 本 节 中 剩 下 部 分 的 讨论 ， 仍 然 适用 于 pdflush， 而 且 也 适用 于 
所 有 2.6 内 核 系列 。 


16.4.3 ”避免 拥塞 的 方法 : 使 用 多 线程 


使 用 bdflush 线程 最 主要 的 一 个 缺点 就 是 ，bdflush 仅仅 包含 了 一 个 线程 ， 因 此 很 有 可 能 在 页 
回 写 任务 很 重 时 ， 造 成 拥塞 。 这 是 因为 单一 的 线程 有 可 能 堵塞 在 某 个 设备 的 已 拥塞 请 求 队列 〈 正 
在 等 待 将 请 求 提 交 给 磁盘 的 IO 请 求 队列 ) 上 ， 而 其 他 设备 的 请 求 队列 却 没 法 得 到 处 理 。 如 果 系 
统 有 多 个 磁盘 和 较 强 的 处 理 能 力 ， 内 核 应 该 能 使 得 每 个 磁盘 都 处 于 忙 状态 。 不 幸 的 是 ， 即 使 还 有 
许多 数据 需要 回 写 ， 单 个 的 bdflush 线程 也 可 能 会 堵塞 在 某 个 队列 的 处 理 上 ， 不 能 使 所 有 磁盘 都 
处 于 饱和 的 工作 状态 ， 原 因 在 于 磁盘 的 吞吐 量 是 非常 有 限 的 。 正 是 因为 磁盘 的 吞吐 量 很 有 限 ， 所 
以 如 果 只 有 唯一 线程 执行 页 回 写 操作 ， 那 么 这 个 线程 很 容易 苗 苗 等 待 对 一 个 磁盘 上 的 操作 。 为 了 
避免 出 现 这 种 情况 ， 内 核 需要 多 个 回 写 线程 并 发 执行 ， 这 样 单个 设备 队列 的 拥塞 就 不 会 成 为 系统 
瓶颈 了 。 

2.6 内 核 通 过 使 用 多 个 ftusher 线程 来 解决 上 述 问题 。 每 个 线程 可 以 相互 独立 地 将 脏 页 刷新 回 
磁盘 ， 而 且 不 同 的 Husher 线程 处 理 不 同 的 设备 队列 。pdflush 线程 策略 中 ， 线 程 数 是 动态 变化 的 。 
每 一 个 线程 试图 尽 可 能 忙 地 从 每 个 超级 块 的 脏 页 链表 中 国 收 数据 ， 并 且 写 回 到 磁盘 。pdflush 方 
式 避 免 了 因为 一 个 忙 磁盘 ， 而 使 得 其 余 磁 盘 饥饿 的 状况 。 通 常情 况 下 这 样 是 不 错 的 ， 但 是 如 果 每 
个 pdflush 线程 在 同一 个 拥塞 的 队列 上 挂 起 了 又 该 如 何 呢 ? 在 这 种 情况 下 ， 多 个 pdflush 线程 可 能 
并 不 比 一 个 线程 更 好 ， 就 浪费 的 内 存 而 言 就 要 多 许多 。 为 了 减轻 上 述 影响 ，pdfiush 线程 采用 了 
拥塞 回避 策略 : 它们 会 主动 尝试 从 那些 没有 拥塞 的 队列 回 写 页 。 从 而 ，pdflush 线程 将 其 工作 调 
度 开 来 ， 防 止 了 仅仅 欺负 某 一 个 忙碌 设备 。 

这 种 方式 效果 确实 不 错 ， 但 是 拥塞 回避 并 不 完美 。 在 现代 操作 系统 中 ， 因 为 /O 总 线 技术 
和 计算 机 其 他 部 分 相 比 发 展 要 缓慢 得 多 ， 所 以 拥塞 现象 时 常 发 生 一 一 处 理 器 发 展 速度 遵循 摩尔 
定理 ， 但 是 硬盘 驱动 器 则 仅仅 比 20 年 前 快 一 点 点 。 要 知道 ， 目 前 除了 pdflush 以 外 ，LIO 系统 
中 还 没有 其 他 地 方 使 用 这 种 拥塞 回避 处 理 。 不 过 在 很 多 情况 下 ，pdflush 确实 可 以 避免 向 特定 
盘 回 写 的 时 间 和 期 望 时间 相 比 太 久 。 当 前 flusher 线程 模型 〈 自 2.6.32 内 核 系列 以 后 采用 〉 和 
具体 块 设备 关联 , 所 以 每 个 给 定 线程 从 每 个 给 定 设备 的 脏 页 链表 收集 数据 ， 并 写 回 到 对 应 磁盘 。 
回 写 于 是 更 趋 于 同步 了 ， 而 且 由 于 每 个 磁盘 对 应 一 个 线程 ， 所 以 线程 也 不 需要 采用 复杂 的 拥塞 
避免 策略 ， 因 为 一 个 磁盘 就 一 个 线程 操作 。 该 方法 提高 了 IO 操作 的 公平 性 ， 而 且 降 低 了 饥饿 
风险 。 

因为 使 用 pdflush 以 及 后 来 的 flusher 线程 提升 了 页 回 写 性 能 。2.6 内 核 系列 相 比 早期 内 核 可 
让 磁盘 利用 更 饱和 。 在 系统 VO 很 重 的 时 候 , flusher 线程 可 以 在 每 个 磁盘 上 都 维护 更 高 的 吞吐 量 。 


16.5 小结 


本 章 中 我 们 看 到 了 Linux 的 页 高 速 缓存 和 页 回 写 。 了 解 了 内 核 如 何 通过 页 缓存 执行 页 TO 操 
作 以 及 这 些 页 高 速 缓存 〈 通 过 存储 数据 在 内 存 中 ) 可 以 利用 减少 磁盘 VO， 从 而 极 大 地 提升 系统 
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的 性 能 。 我 们 讨论 了 通过 称 为 “ 回 写 缓存 ”的 进程 维护 在 缓存 中 的 更 新 页 面 一 一 具体 做 法 是 标记 
内 存 中 的 页 面 为 脏 ， 然 后 找 时 机 延迟 写 到 磁盘 中 。Flusher 内 核 线程 将 负责 处 理 这 些 最 终 的 页 回 
写 操作 。 

通过 最 近 几 章 的 学 习 ， 你 应 该 已 经 对 内 存 与 文件 系统 有 了 深刻 认识 ， 那 么 接 下 来 我 们 将 进入 
模块 专题 ， 去 学 习 Linux 的 设备 驱动 以 及 内 核 如 何 被 模块 化 、 在 运行 时 插入 和 删除 内 核 代码 的 动 
态 机 制 。 


第 47 章 
设备 与 模块 


在 本 章 中 ， 关 于 设备 驱动 和 设备 管理 ， 我 们 讨论 四 种 内 核 成 分 。 

“设备 类 型 : 在 所 有 Unix 系统 中 为 了 统一 普通 设备 的 操作 所 采用 的 分 类 。 

“ 模块 : Linux 内 核 中 用 于 按 需 加 载 和 印 载 目标 码 的 机 制 。 

“内核 对象 : 内 核 数据 结构 中 支持 面向 对 象 的 简单 操作 ， 还 支持 维护 对 象 之 间 的 父子 关系 。 
“sysfs : 表示 系统 中 设备 树 的 一 个 文件 系统 。 


17.1 设备 类 型 


在 Linux 以 及 所 有 Unix 系统 中 ， 设 备 被 分 为 以 下 三 种 类 型 ; 

* 块 设备 

* 字 符 设 备 

。 网 络 设备 ， 

块 设备 通常 缩写 为 blkdev， 它 是 可 寻 址 的 ， 寻 址 以 块 为 单位 ， 块 大 小 随 设备 不 同 而 不 同 ; 块 
设备 通常 支持 重 定位 (seeking) 操作 ， 也 就 是 对 数据 的 随机 访问 。 块 设备 的 例子 有 硬盘 、 蓝 光 
光碟 ， 还 有 如 Flash 这 样 的 存储 设备 。 块 设备 是 通过 称 为 “ 块 设备 节点 ”的 特殊 文件 来 访问 的 ， 
并 且 通 常 被 挂 载 为 文件 系统 。 我 们 在 第 13 章 已 经 讨论 过 了 文件 系统 ， 在 第 14 章 已 经 讨论 过 了 
块 设备 。 

字符 设备 通常 缩写 为 cdev, 它 是 不 可 寻 址 的 ， 仅 提供 数据 的 流 式 访问 ， 就 是 一 个 个 字符 ,或 
者 一 个 个 字 节 。 字 符 设 备 的 例子 有 键盘 、 鼠 标 、 打 印 机 ， 还 有 大 部 分 伪 设 备 。 字 符 设 备 是 通过 称 
为 “字符 设备 节点 ”的 特殊 文件 来 访问 的 。 与 块 设备 不 同 ， 应 用 程序 通过 直接 访问 设备 节点 与 字 
符 设备 交互 。 

网 络 设备 最 常见 的 类 型 有 时 也 以 以 太 网 设备 (ethernet devices) 来 称呼 ， 它 提供 了 对 网 络 〈 例 
如 Internet) 的 访问 ， 这 是 通过 一 个 物理 适配器 ( 如 你 的 膝 上 型 计算 机 的 802.11 卡 ) 和 一 种 特定 
的 协议 (如 于 协议 ) 进行 的 。 网 络 设 备 打 破 了 Unix 的 “所 有 东西 都 是 文件 ”的 设计 原则 ， 它 不 
是 通过 设备 节点 来 访问 ， 而 是 通过 套 接 字 API 这 样 的 特殊 接口 来 访问 。 

Linux 还 提供 了 不 少 其 他 设备 类 型 ， 但 都 是 针对 单个 任务 ， 而 非 通用 的 。 一 个 特例 是 “杂项 
设备 ”(miscellaneous device)， 通 常 简写 为 miscdev， 它 实际 上 是 个 简化 的 字符 设备 。 杂 项 设备 使 
驱动 程序 开发 者 能 够 很 容易 地 表示 一 个 简单 设备 一 一 实际 上 是 对 通用 基本 架构 的 一 种 折 中 。 

并 不 是 所 有 设备 驱动 都 表示 物理 设备 。 有 些 设备 驱动 是 虚拟 的 ， 仅 提供 访问 内 核 功 能 而 
已 。 我 们 称 为 “ 伪 设 备 ”(pseudo device)， 最 常见 的 如 内 核 随 机 数 发 生 器 (通过 /dev/random 
和 /dev/urandom 访问 )、 空 设备 ( 通过 /dev/null 访问 )、 零 设备 ( 通过 /dev/zero 访问 )、 满 设备 
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(通过 /dev/full 访问 )， 还 有 内 存 设备 ( 通过 /dev/mem 访问 )。 然 而 ， 大 部 分 设备 驱动 是 表示 物 
理 设备 的 。 


17.2 ”模块 


尽管 Linux 是 “ 单 块 内 核 ”(monolithic) 的 操作 系统 一 一 这 是 说 整个 系统 内 核 都 运行 于 一 个 
单独 的 保护 域 中 ， 但 是 Linux 内 核 是 模块 化 组 成 的 ， 它 允许 内 核 在 运行 时 动态 地 向 其 中 插入 或 从 
中 删除 代码 。 这 些 代码 (包括 相关 的 子 例 程 、 数 据 、 函 数 入 口 和 函数 出 口 》 被 一 并 组 合 在 一 个 单 
独 的 二 进 制 镜像 中 ， 即 所 谓 的 可 装载 内 核 模块 中 ， 或 简称 为 模块 。 支 持 模块 的 好 处 是 基本 内 核 镜 
像 可 以 尽 可 能 地 小 ， 因 为 可 选 的 功能 和 驱动 程序 可 以 利用 模块 形式 再 提供 。 模 块 允 许 我 们 方便 地 
删除 和 重新 载 和 内 核 代码 ， 也 方便 了 调试 工作 。 而 且 当 热 插 拔 新 设备 时 ， 可 通过 命令 载 入 新 的 驱 
动 程序 。 

本 章 我 们 将 探寻 内 核 模块 的 奥秘 ， 同 时 也 学 习 如 何 编写 自己 的 内 核 模块 。 


17.2.1 Hello，World 


与 开发 我 们 已 经 讨论 过 的 大 多 数 内 核 核心 子 系统 不 同 ， 模 块 开发 更 接近 编写 新 的 应 用 系统 ， 
因为 至 少 在 模块 文件 中 具有 人 和 人口 和 出 口 点 。 


虽然 编写 “Hello，World” 程 序 作 为 实例 实 属 陈 词 滥 调 了 ， 但 它 的 确 很 让 人 喜爱 。 内 核 模 块 
Hello，World 出 场 了 : 


/* 
* hello.c _The Hello，World! 我 们 的 第 一 个 内 核 模块 
*/ 


#include <linux/init.h> 
#include <linux/module.h> 
#inciude <linux/kernel.h> 
/* 
* hello_init 一 初始 化 函数 ， 当 模块 装载 时 被 调用 ， 如 果 成 功 装载 返回 零 ， 否 
* 则 返回 非 零 值 
x 
static int hello init(void) 
{ 
printk (KERN ALERT ‘I bear a charmed life.\n"); 
return 0; 


} 

/* 

* hello_exit 一 退出 函数 ， 当 模块 印 载 时 被 调用 
/ 

static void hello exit (void) 


{ 
] 


module init (hello init); 
module exit (hello exit); 


printk (KERN ALERT "Out, out, brief candle!l\n'); 
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MODULE LICENSE ("GPL"); 

MODULE AUTHOR ("Shakespeare"); 

MODULE DESCRIPTION("A Hello, World Module"); 

这 大 概 是 我 们 所 能 见 到 的 最 简单 的 内 核 模块 了 ，hello_init0 函数 是 模块 的 入 口 点 ， 它 通过 
module_init() 例 程 注册 到 系统 中 ， 在 内 核 装载 时 被 调用 。 调 用 module_initO 实际 上 不 是 真正 的 函 
数 调用 ， 而 是 一 个 宏 调 用 ， 它 唯一 的 参数 便 是 模块 的 初始 化 函数 。 模 块 的 所 有 初始 化 函数 必须 符 
合 下 面 的 形式 : 


int my init(void); 


因为 init 函数 通常 不 会 被 外 部 函数 直接 调用 ， 所 以 你 不 必 导 出 该 函数 ， 故 它 可 标记 为 static 
类 型 。 

init 函数 会 返回 一 个 int 型 数值 ， 如 果 初 始 化 〈 或 你 的 init 函数 想 做 的 事情 》 顺利 完成 ， 那 
么 它 的 返回 值 为 零 ; 否则 返回 一 个 非 零 值 。 

这 个 init 函数 仅仅 打印 了 一 条 简单 的 消息 ， 然 后 返回 零 。 在 实际 的 模块 中 ，init 函数 还 会 注 
册 资 源 、 初 始 化 硬件 、 分 配 数据 结构 等 。 如 果 这 个 文件 被 静态 编译 进 内 核 映像 中 ， 其 init 函数 将 
存放 在 内 核 映 像 中 ， 并 在 内 核 启动 时 运行 。 

hello_exitO 函数 是 模块 的 出 口 函 数 ， 它 由 module_exitO 例 程 注册 到 系统 。 在 模块 从 内 存 印 
载 时 ， 内 核 便 会 调用 hello_exit0。 退 出 函数 可 能 会 在 返回 前 负责 清理 资源 ， 以 保证 硬件 处 于 一 致 
状态 ; 或 者 做 其 他 的 一 些 操作 。 简 单 说 来 ，exit 函数 负责 对 init 函数 以 及 在 模块 生命 周期 过 程 中 
所 做 的 一 切 事 情 进 行 撤销 工作 ， 基 本 上 就 是 清理 工作 。 在 退出 函数 返回 后 ， 模 块 就 被 印 载 了 。 

退出 函数 必须 符合 以 下 形式 : 

void my_exit (void) ; 

与 init 函数 一 样 ， 你 也 可 以 标记 其 为 static 。 

如 果 上 述 文 件 被 静态 地 编译 到 内 核 映像 中 ， 那 么 退出 函数 将 不 被 包含 ， 而 且 永 远 都 不 会 被 调 
用 因为 如 果 不 是 编译 成 模块 的 话 ， 那 么 代码 就 不 需 从 内 核 中 印 载 )。 

MODULE_LICENSEO 宏 用 于 指定 模块 的 版 权 。 如 果 载 入 非 GPL 模块 到 系统 内 存 , 则 会 在 
内 核 中 设置 被 污染 标识 一 一 这 个 标识 只 起 到 记录 信息 的 作用 。 版 权 许 可 证 具有 两 大 目的 。 首 先 ， 
它 具 有 通告 的 目的 。 当 oops 中 设置 了 被 污染 的 标识 时 ， 很 多 内 核 开发 者 对 bug 的 报告 缺乏 信任 ， 
因为 他 们 认为 二 进 制 模块 〈 也 就 是 开发 者 不 能 调试 它 ) 被 装载 到 了 内 核 。 其 次 , 非 GPL 模块 不 
能 调用 GPL only 符号 ， 本 章 后 续 的 “导出 符号 表 ” 一 节 将 对 其 加 以 描述 。 

最 后 还 要 说 明 ，MODULE AUTHORO 安 和 MODULE_DESCRIPTIONO 宏 指 定 了 代码 作者 
和 模块 的 简要 描述 , 它们 完全 是 用 作 信 息 记录 目的 。 


17.2.2 ”构建 模块 


在 2.6 内 核 中 ， 由 于 采用 了 新 的 “kbuild” 构 建 系统 ， 现 在 构建 模块 相 比 从 前 更 加 容易 。 构 
建 过 程 的 第 一 步 是 决定 在 哪里 管理 模块 源码 。 你 可 以 把 模块 源码 加 入 到 内 核 源 代 码 树 中 ， 或 者 是 
作为 一 个 补丁 或 者 是 最 终 把 你 的 代码 合并 到 正式 的 内 核 代码 树 中 ; 另 一 种 可 行 的 方式 是 在 内 核 源 
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代码 树 之 外 维护 和 构建 你 的 模块 源码 。 

1. 放 在 内 核 源 代 码 树 中 

最 理想 的 情况 莫 过 于 你 的 模块 正式 成 为 Linux 内 核 的 一 部 分 ， 这 样 就 会 被 存放 入 内 核 源 代码 
树 中 。 把 你 的 模块 代码 正确 地 置 于 内 核 中 ， 开 始 的 时 候 难免 需要 更 多 的 维护 ， 但 这 样 通常 是 一 劳 
永 逸 的 解决 之 道 。 

当 你 决定 了 把 你 的 模块 放 入 内 核 源 代码 树 中 ， 下 一 步 要 清楚 你 的 模块 应 在 内 核 源 代码 树 中 
处 于 何 处 。 设 备 驱动 程序 存放 在 内 核 源码 树 根 目录 下 /drivers 的 子 目录 下 ， 在 其 内 部 ， 设 备 驱动 
文件 被 进一步 按照 类 别 、 类 型 或 特殊 驱动 程序 等 更 有 序 地 组 织 起 来 。 如 字符 设备 存在 于 drivers/ 
char/ 目录 下 ， 而 块 设备 存放 在 drivers/block/ 目录 下 ，USB 设备 则 存放 在 drivers/usb/ 目录 下 。 文 
件 的 具体 组 织 规则 并 不 须 绝对 墨守成规 ， 不 容 打 破 ， 你 可 看 到 许多 USB 设备 也 属于 字符 设备 。 
但 是 不 管 怎么 样 ， 这 些 组 织 关系 对 我 们 来 说 相当 容易 理解 ， 而 且 很 也 准确 。 

假定 你 有 一 个 字符 设备 ,而且 希 望 将 它 存 放 在 drivers/char/ 目录 下 ， 那 么 要 注意 ， 在 该 目录 
下 同时 会 存在 大 量 的 C 源 代码 文件 和 许多 其 他 目录 。 所 以 对 于 仅仅 只 有 一 两 个 源 文件 的 设备 驱 
动 程序 ， 可 以 直接 存放 在 该 目录 下 ; 但 如 果 驱 动 程序 包含 许多 源 文件 和 其 他 辅助 文件 ， 那 么 可 以 
创建 一 个 新 子 自 录 。 这 期 间 并 没有 什么 金 科 玉 律 。 假 设想 建立 自己 代码 的 子 目 录 ， 你 的 驱动 程序 
是 一 个 钓鱼 笔 和 计算 机 的 接口 ， 名 为 Fish Master XL 3000， 那 么 你 需要 在 drivers/char 目录 下 建 
立 一 个 名 为 fshing 的 子 目录 。 ~ 

接 下 来 需要 向 drivers/char 下 的 Makefile 文件 中 添加 一 行 。 编 辑 derivers/char/Makefile/ 并 加 入 : 

obj-m += fishing/ 

这 行 编译 指令 告诉 模块 构建 系统 ， 在 编译 模块 时 需要 进入 fishing/ 子 目录 中 。 更 可 能 发 生 
的 情况 是 ， 你 的 驱动 程序 的 编译 取决 于 一 个 特殊 配置 选项 ; 比如 ， 可 能 的 CONFIG_FISHING _ 
POLE 请 看 17.2.6 节 ， 它 会 告诉 你 如 何 加 入 一 个 新 的 编译 选项 )。 如 果 这 样 ， 你 需要 用 下 面 的 指 
令 代替 刚才 那 条 指令 : 


Obj-$ (CONFIG FISHING POLE) += fishing/ 


最 后 ， 在 drivers/char/fishing/ 下 ， 需 要 添加 一 个 新 Makefile 文件 ， 其 中 需要 有 下 面 这 行 指令 : 


obj-m += fishing.o 


一 切 就 结 了 ， 此 刻 构建 系统 运行 将 会 进入 fishing/ 目录 下 ， 并 且 将 fishing.c 编译 为 fishing.ko 
模块 。 虽 然 你 写 的 扩展 名 是 .0o， 但 是 模块 被 编译 后 的 扩展 名 却 是 .ko。 
再 一 个 可 能 ， 要 是 你 的 钓鱼 竿 驱动 程序 编译 时 有 编译 选项 ， 那 么 你 可 能 需要 这 么 来 做 : 


obj~$ (CONFIG FISHING POLE) += fishing.o 


以 后 ， 假 如 你 的 钓鱼 笔 驱 动 程序 需要 更 加 管 能 化 一 一 它 可 以 自动 检测 钓鱼 线 ， 这 可 是 最 新 的 
鱼 笔 “ 必 备 要 求 ” 呀 。 这 时 驱动 程序 源 文件 可 能 就 不 再 只 有 一 个 了 。 别 怕 ， 朋 友 ， 你 只 要 把 你 的 
Makefile 做 如 下 修改 就 可 搞定 : 


Obj-$ (CONFIG FISHING POLE) += fishing.o 
fishing-objs := fishing-main.o fishing-line.o 
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每 当 设置 了 CONFIG FISHING POLE，fishing-main.c 和 fishing-line.c 就 一 起 被 编译 和 连接 
到 fishing.ko 模块 内 。 

最 后 一 个 注意 事项 是 ， 在 构建 文件 时 你 可 能 需要 额外 的 编译 标记 ， 如 果 这 样 ; 你 只 需 在 
Makefile 中 添加 如 下 指令 : 


EXTRA _ CFLAGS += -DTITANIUM POLE 


如 果 喜 欢 把 你 的 源 文 件 置 于 drivers/char/ 目录 下 ， 并 且 不 建立 新 目录 的 话 ， 那 么 你 要 做 的 便 
是 将 前 面 提 到 的 行 (也 就 是 原来 处 于 drivers/char/fishing/ 下 你 自己 的 Makefile 中 的 ) 都 加 入 到 
drivers/char/Makefile 中 。 

开始 编译 吧 ， 运 行内 核 构 建 过 程 和 原来 一 样 。 如 果 你 的 模块 编译 取决 于 配置 选项 ， 比 如 有 
CONFIG_FISHING_POLE 约束 ， 那 么 在 编译 前 首先 要 确保 选项 被 允许 。 

2. 放 在 内 核 代 码 外 

如 果 你 喜欢 脱离 内 核 源 代码 树 来 维护 和 构建 你 的 模块 ， 把 自己 作为 一 个 圈 外 人 ， 那 你 要 做 的 
就 是 在 你 自己 的 源 代 码 树 目录 中 建立 一 个 Makefile 文件 ， 它 只 需要 一 行 指令 : 


obj-m := fishing.o 


这 条 指令 就 可 把 fishing.c 编译 成 fishing.ko。 如 果 你 有 多 个 源 文件 ， 那 么 用 两 行 就 足够 : 


obj-m := fishing.o 
fishing-objs := fishing-main.o fishing-line.o 


这 样 一 来 ，fishing-main.c 和 fishing-line.c 就 一 起 被 编译 和 连接 到 fishing.ko 模块 内 了 。 
模块 在 内 核 内 和 在 内 核 外 构建 的 最 大 区 别 在 于 构建 过 程 。 当 模块 在 内 核 源 代码 树 外 围 了 时 ， 你 
必须 告诉 make 如 何 找 到 内 核 源 代码 文件 和 基础 Makefile 文件 。 不 过 要 完成 这 个 工作 同样 不 难 : 


make -C /kernel/source/location SUBDIRS=$PWD modules 

在 这 个 例子 中 ，/ kernel/source/location 是 你 配置 的 内 核 源 代码 树 。 回 想 一 下 ， 不 要 把 要 处 理 
的 内 核 源 代码 树 放 在 /usr/src/linux 下 ， 而 要 移 到 你 home 目录 下 某 个 方便 访问 的 地 方 。 
17.2.3 ”安装 模块 


编译 后 的 模块 将 被 装 人 到 目录 /lib/modules/version/kernel 下 ， 在 kernel/ 目录 下 的 每 一 个 目 
录 都 对 应 着 内 核 源 码 树 中 的 模块 位 置 。 如 果 使 用 的 是 2.6.34 内 核 ， 而 且 将 你 的 模块 源 代码 直接 
放 在 drivers/char 下 ， 那 么 编译 后 的 钓鱼 竿 驱动 程序 的 存放 路 径 将 是 : /lib/modules/2.6.34/kernel/ 
drivers/char/fishing.ko 。 


下 面 的 构建 命令 用 来 安装 编译 的 模块 到 合适 的 目录 下 : 


make modules_ install 
通常 需要 以 root 权限 运行 。 
17.2.4 产生 模块 依赖 性 
Linux 模块 之 间 存 在 依赖 性 ， 也 就 是 说 钓鱼 模块 依赖 于 鱼饵 模块 ， 那 么 当 你 载 信 钓鱼 模块 
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时 ,鱼饵 模块 会 被 自动 载 人 。 这 里 需要 的 依赖 信息 必须 事先 生成 。 多 数 Linux 发 布 版 都 能 自动 产 
生 这 些 依赖 关系 信息 ， 而 且 在 每 次 启动 时 更 新 。 若 想 产生 内 核 依赖 关系 的 信息 ，root 用 户 可 运行 
命令 

depmod 

为 了 执行 更 快 的 更 新 操作 ， 那 么 可 以 只 为 新 模块 生成 依赖 信息 ， 而 不 是 生成 所 有 的 依赖 关 
系 ， 这 时 root 用 户 可 运行 命令 


depmod -A 


模块 依赖 关系 信息 存放 在 /lib/modules/version/modules.dep 文件 中 。 


17.2.5 ” 载 入 模块 


载 入 模块 最 简单 的 方法 是 通过 insmod 命令 ， 这 是 个 功能 很 有 限 的 命令 ， 它 能 做 的 就 是 请 求 
内 核 载 入 指定 的 模块 。insmod 程序 不 执行 任何 依赖 性 分 析 或 进一步 的 错误 检查 。 它 用 法 简单 ， 
以 root 身份 运行 命令 : 


insmod module.ko 


这 里 ，module.ko 是 要 载 入 的 模块 名 称 。 比 如 装载 钓鱼 笔 模块 ， 那 你 就 执行 命令 : 


insmod fishing .ko 


类 似 的 ， 印 载 一 个 模块 ， 你 可 使 用 rmmod 命令 ， 它 同样 需要 以 root 身份 运行 : 


rmmod module 


比如 ，rmmod fishing 命令 将 卸载 钓鱼 竿 模块 。 
rmmod fishing 
这 两 个 命令 是 很 简单 ， 但 是 它们 一 点 也 不 智能 。 先 进 工具 modprobe 提供 了 模块 依赖 性 分 


析 、 错 误 智 能 检查 、 错 误 报告 以 及 许多 其 他 功能 和 选项 。 我 强烈 建议 大 家 用 这 个 命令 。 
为 了 在 内 核 via modprobe 中 插入 模块 ， 需 要 以 root 身份 运行 : 


modprobe module [ module parameters ] 


其 中 ,参数 module 指定 了 需要 载 人 的 模块 名 称 ， 后 面 的 参数 将 在 模块 加 载 时 传人 内 核 。( 请 
看 17.2.7 一 节 对 模块 参数 的 讨论 )。 

modprobe 命令 不 但 会 加 载 指定 的 模块 ， 而 且 会 自动 加 载 任何 它 所 依赖 的 有 关 模块 。 所 以 说 
它 是 加 载 模块 的 最 佳 机 制 。 

modprobe 命令 也 可 用 来 从 内 核 中 印 载 模 块 ， 当 然 这 也 需要 以 root 身份 运行 : 


modprobe -r modules 


参数 modules 指定 一 个 或 多 个 需要 旬 载 的 模块 。 与 rmmod 命令 不 同 ，modprobe 也 会 卸载 给 
定 模块 所 依赖 的 相关 模块 ， 但 其 前 提 是 这 些 相关 模块 没有 被 使 用 。Linux 用 户 手 册 第 8 部 分 提供 
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了 上 述 命令 的 使 用 参考 ， 里 面包 括 了 命令 选项 和 用 法 。 


17.2.6 ”管理 配置 选项 


在 前 面 的 内 容 中 我 们 看 到 ， 只 要 设置 了 CONFIG FISHING_POLE 配置 选项 ， 钓 色 午 模块 就 
将 被 自动 编译 。 虽 然 配 置 选项 在 前 面 已 经 讨论 过 了 ， 但 这 里 我 们 将 继续 以 钓鱼 竿 驱动 程序 为 例 ， 
再 看 看 一 个 新 的 配置 选项 如 何 加 入 。 

由 于 2.6 内 核 中 新 引入 了 “kbuild” 系 统 ， 因 此 ， 加 入 一 个 新 配置 选项 现在 可 以 说 是 易 如 反 
掌 。 你 所 需 做 的 全 部 就 是 向 kconfig 文件 中 添加 一 项 ， 用 以 对 应 内 核 源 码 树 。 对 驱动 程序 而 言 ， 
kconfig 通常 和 源 代 码 处 于 同一 目录 。 如 果 钓 鱼 竿 驱动 程序 在 目录 drivers/char 下 ， 那 么 你 便 会 发 
现 drivers/char/kconfig 也 同时 存在 。 

如 果 你 建立 了 一 个 新 子 目 录 , 而 且 也 希望 kconfig 文件 存在 于 该 目录 中 的 话 , 那么 你 必须 在 
一 个 已 存在 的 kconfig 文件 中 将 它 引 入 。 你 需要 加 入 下 面 一 行 指令 : 


source "drivers/char/fishing/Kconfig" 


这 里 所 谓 存 在 的 Kconfig 文件 可 能 是 drivers/char/Kconfig。 
Kconfig 文件 很 方便 加 入 一 个 配置 选 型 ， 请 看 钓鱼 笔 模块 的 选项 ， 如 下 所 示 : 


config FISHING POLE 

tristate “Fish Master 3000 support” 

default n 

help 
If you say Y here, support for the Fish Master 3000 with computer 
interface will be compiled into the kernel and accessible via a 
Gevice node. You can also say M here and the driver will be built as a 
module named fishing .ko. 


If unsure, say N. 


配置 选项 第 一 行 定义 了 该 选项 所 代表 的 配置 目标 。 注 意 CONFIG_ 前 级 并 不 需要 写 上 。 
第 二 行 声明 选项 类 型 为 tistate, 也 就 是 说 可 以 编译 进 内 核 (Y)， 也 可 作为 模块 编译 (MD)， 
或 者 干脆 不 编译 它 (N)。 如 果 编 译 选项 代表 的 是 一 个 系统 功能 ， 而 不 是 一 个 模块 ， 那 么 编译 选 
项 将 用 bool 指令 代替 tristate， 这 说 明 它 不 允许 被 编译 成 模块 。 处 于 指令 之 后 的 引号 内 文字 为 访 
选项 指定 了 名 称 。 
， 第 三 行 指定 了 该 选项 的 默认 选择 ， 这 里 默认 操作 是 不 编译 它 (N)。 也 可 以 把 默认 选择 指定 为 纺 
译 进 内 核 \Y)， 或 者 编译 成 一 个 模块 (M)。 对 驱动 程序 而 言 ， 软 认 选 择 通常 为 不 编译 进 内 核 (N)。 
Help 指令 的 目的 是 为 该 选项 提供 帮助 文档 。 各 种 配置 工具 都 可 以 按 要 求 显示 这 些 帮助 。 因 
为 这 些 帮 助 是 面向 编译 内 核 的 用 户 和 开发 者 的 ， 所 以 帮助 内 容 简 洁 扼 要 。 一 般 的 用 户 通常 不 会 编 
译 内 核 ,但 如 果 他 们 想 试 试 ， 往 往 也 能 理解 配置 帮助 的 意思 。 
除了 上 述 选项 以 外 ， 还 存在 其 他 选项 。 比 如 depends 指令 规定 了 在 该 选项 被 设置 前 ,首先 要 
设置 的 选项 。 假 如 依赖 性 不 满足 , 那么 该 选项 就 被 禁止 。 比 如 , 如果 你 加 入 指令 : 


depends on FISH TANK 
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到 配置 选项 中 , 那么 就 意味 着 在 CONFIG_FISH_TANK 被 选择 前 , 我 们 的 钓鱼 竿 模块 是 不 能 
使 用 的 〈Y 或 者 M)。Select 指令 和 depends 类 似 ， 它 们 只 有 一 点 不 同 之 处 一 一 只 要 是 select 指定 
了 谁 ， 它 就 会 强行 将 被 指定 的 选项 打开 。 所 以 这 个 指令 可 不 能 向 depends 那样 滥用 一 通 ， 因 为 它 
会 自动 的 激活 其 他 配置 选项 。 它 的 用 法 和 depends 一 样 。 比 如 : 


Select BAIT 


意味 着 当 CONFIG_FISHING POLE 被 激活 时 ， 配 置 选项 CONFIG_BAIT 必然 一 起 被 激活 。 
如 果 select 和 depends 同时 指定 多 个 选项 ， 那 就 需要 通过 && 指令 来 进行 多 选 。 使 用 
depends 时 ， 你 还 可 以 利用 叹 号 前 缀 来 指明 禁止 某 个 选项 。 比 如 : 


depends on EXAMPLE DRIVERS && !NO_FISHING ALLOWED 


这 行 指令 就 指定 驱动 程序 安装 要 求 打 开 CONFIG_EXAMPLE_DRIVERS 选项 ， 同 时 要 禁止 
CONFIG_NO_FISHING_ALLOWED 选项 。 

tristate 和 bool 选项 往往 会 结合 下 指令 一 起 使 用 ， 这 表示 某 个 选项 取决 于 另 一 个 配置 选项 。 
如 果 条 件 不 满足 ， 配 置 选项 不 但 会 被 禁止 ， 甚 至 不 会 显示 在 配置 工具 中 ， 比 如 , 要 求 配置 系统 内 
有 在 CONFIG_x86 配置 选项 设置 时 才 显 示 某 选项 。 请 看 下 面 指令 : 


bool "Deep Sea Mode" if OCEAN 


下 指令 也 可 与 default 指令 结合 使 用 ， 强 制 只 有 在 条 件 满足 时 default 选项 才 有 效 。 

配置 系统 导出 了 一 些 元 选项 (meta-option) 以 简化 生成 配置 文件 。 比 如 选项 CONFIG_ 
EMBEDDED 是 用 于 关闭 那些 用 户 想 要 禁止 的 关键 功能 〈 比 如 要 在 嵌入 系统 中 节省 珍贵 的 内 存 ) ; 
选项 CONFIG_BROKEN_ON_SMP 用 来 表示 驱动 程序 并 非 多 处 理 器 安全 的 。 通 常 该 项 不 应 设置 ， 
标记 它 的 目的 是 确保 用 户 能 知道 该 驱动 程序 的 弱点 。 当 然 ， 新 的 驱动 程序 不 应 该 使 用 该 标志 。 最 
后 要 说 明 CONFIG_EXPERIMENTAL 选项 ， 它 是 一 个 用 于 说 明 某 项 功能 尚 在 试验 或 处 于 beta 版 
阶段 的 标志 选项 。 该 选项 默认 情况 下 关闭 ， 同 样 ， 标 记 它 的 目的 是 为 了 让 用 户 在 使 用 驱动 程序 前 
明白 潜在 风险 。 


17.2.7 ”模块 参数 


Linux 提供 了 这 样 一 个 简单 框架 一 一 它 可 允许 驱动 程序 声明 参数 ， 从 而 用 户 可 以 在 系统 启动 
或 者 模块 装载 时 再 指定 参数 值 ， 这 些 参数 对 于 驱动 程序 属于 全 局 变量 。 值 得 一 提 的 是 模块 参数 同 
时 也 将 出 现在 sysfs 文件 系统 中 〈 见 本 章 后 面 的 介绍 )， 这 样 一 来 ， 无 论 是 生成 模块 参数 ， 还 是 管 
理 模 块 参数 的 方式 都 变 得 灵活 多 样 了 。 

定义 一 个 模块 参数 可 通过 宏 module_param0 完成 : 


module paraml(name, type, perm); 


参数 name 既是 用 户 可 见 的 参数 名 ， 也 是 你 模块 中 存放 模块 参数 的 变量 名 。 参 数 type 则 存放 
了 参数 的 类 型 ， 它 可 以 是 byte、short、ushort、int、uint、long、ulong、charp、bool 或 invbool， 
它们 分 别 代表 字 节 型 、 短 整 型 、 无 符号 短 整形 、 整 型 、 无 符号 整 型 、 长 整形 、 无 符号 长 整 型 、 字 
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符 指针 、 布 尔 型 ， 以 及 应 用 户 要 求 转换 得 来 的 布尔 型 。 其 中 byte 类 型 存放 在 char 类 型 变量 中 ， 
boolean 类 型 存放 在 int 变量 中 ， 其 余 的 类 型 都 一 致 对 应 C 语言 的 变量 类 型 。 最 后 一 个 参数 perm 
指定 了 模块 在 sysfs 文件 系统 下 对 应 文件 的 权限 ， 读 值 可 以 是 八进制 的 格式 ， 比 如 0644 (所 有 者 
可 以 读 写 ， 组 内 可 以 读 ， 其 他 人 可 以 读 ) ; 或 是 S_Ifoo 的 定义 形式 ， 比 如 S_IRUGO | S_IWUSR 
(任何 人 可 读 ，user 可 写 ) ; 如 果 该 值 是 零 ， 则 表示 禁止 所 有 的 sysfs 项 。 

上 面 的 宏 其 实 并 没有 定义 变量 ， 你 必须 在 使 用 该 宏 前 进行 变量 定义 。 通 常 使 用 类 似 下 面 的 语 
句 完成 定义 : 

/* 在 模块 参数 控制 下 ， 我 们 人 允许 在 钓鱼 伟 上 用 活 鱼饵 */ 

static int allow live bait = 1; /* 默认 功能 允许 */ 

module param(allow live bait, bool, 0644); /* 一 个 Boolean 类 型 */ 

这 个 值 处 于 模块 代码 文件 外 部 ， 换 句 话说 ，allow_live_bait 是 个 全 局 变量 。 

有 可 能 模块 的 外 部 参数 名 称 不 同 于 它 对 应 的 内 部 变量 名 称 ， 这 时 就 该 使 用 宏 module_param_ 
named() 定义 了 : 


module param named (name, variable, type, perm); 


参数 name 是 外 部 可 见 的 参数 名 称 ， 参 数 variable 是 参数 对 应 的 内 部 全 局 变量 名 称 。 比 如 : 


static unsigned int max test = DEFAULT MAX_ LINE TEST; 
module_ param named (maximum line test, max test, int, 0); 


通常 ， 需 要 用 一 个 charp 类 型 来 定义 模块 参数 〈 一 个 字符 串 )， 内 核 将 用 户 提供 的 这 个 字符 
串 拷贝 到 内 存 ， 而 且 将 变量 指向 该 字符 串 。 比 如 : 


static char *name; 
module param(name, charp, 0); 


如 果 需 要 ， 也 可 使 内 核 直接 拷贝 字符 串 到 指定 的 字符 数组 。 宏 module_param_string0 可 完 
成 上 述 任务 : 


module param string (name, string, len, perm); 


这 里 参数 name 为 外 部 参数 名 称 ， 参 数 string 是 对 应 的 内 部 变量 名 称 ， 参 数 len 是 string 命 
名 缓冲 区 的 长 度 〈 或 更 小 的 长 度 ， 但 是 没什么 太 大 的 意义 )， 参 数 perm 是 sysfs 文件 系统 的 访问 
权限 〈 如 果 为 零 ， 则 表示 完全 禁止 sysfs 项 )， 比 如 : 


static char Species [BUF LEN]; 
module param string(specifies, species, BUF_LEN, 0); 


你 可 接受 逗号 分 隔 的 参数 序列 ， 这 些 参 数 序列 可 通过 宏 module param_array0 存储 在 C 数 
组 中 : 

module param array (name, type, nump, perm); : 

参数 name 仍然 是 外 部 参数 以 及 对 应 内 部 变量 名 ， 参 数 type 是 数据 类 型 ， 参 数 perm 是 sysfs 
文件 系统 访问 权限 ， 这 里 新 参数 是 aump， 它 是 一 个 整 型 指针 ， 该 整 型 存放 数组 项 数 。 注 意 由 参 
数 name 指定 的 数组 必须 是 静态 分 配 的 ， 内 核 需 要 在 编译 时 确定 数组 大 小 ， 从 而 保证 不 会 造成 涪 
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出 。 该 函数 用 法 相当 简单 ， 比 如 : 


static int fish[MAX FISH]; 
static int nr fish; 
module param array (lfish, int, é&nr fish, 0444); 


你 可 以 将 内 部 参数 数组 命名 区 别 于 外 部 参数 ， 这 时 你 需 使 用 宏 : 
module param array named (name, array, type, nump, perm); 
其 中 参数 和 其 他 宏一 致 。 

最 后 ， 你 可 使 用 MODULE_PARM_DESCO0 描述 你 的 参数 : 


static unsigned short size = 1; 
module paraml(size, ushort, 0644); 
MODULE PARM DESC(size, "The size in inches of the fishing pole."); 


上 述 所 有 宏 需 要 包含 <linux/module.h> 头 文件 。 


17.2.8 导出 符号 表 


模块 被 载 入 后， 就 会 被 动态 地 连接 到 内 核 。 注 意 ， 它 与 用 户 空间 中 的 动态 链接 库 类 似 ， 只 有 
当 被 显 式 导出 后 的 外 部 函数 ， 才 可 以 被 动态 库 调 用 。 在 内 核 中 ， 导 出 内 核 函 数 需要 使 用 特殊 的 指 
令 : EXPORT_SYMBOLO 和 EXPORT_SYMBOL GPL0。 

导出 的 内 核 函 数 可 以 被 模块 调用 ， 而 未 导出 的 函数 模块 则 无 法 被 调用 。 模 块 代码 的 链接 和 调 
用 规则 相 比 核心 内 核 镜像 中 的 代码 而 言 ， 要 更 加 严格 。 核 心 代码 在 内 核 中 可 以 调用 任意 非 静 态 接 
口 ， 因 为 所 有 的 核心 源 代码 文件 被 链接 成 了 同一 个 镜像 。 当 然 ， 被 导出 的 符号 表 所 含 的 函数 必然 
也 要 是 非 静态 的 。 

导出 的 内 核 符号 表 被 看 做 导出 的 内 核 接口 ， 其 至 称 为 内 核 API。 导 出 符号 相当 简单 ， 在 声明 
函数 后 ， 紧 跟 上 EXPORT_SYMBOL( 指令 就 搞定 了 ， 比 如 : 

get_pirate beard color - 返回 当前 priate 胡须 的 颜色 ， 

oS 是 一 个 指向 pirate 结构 体 的 指针 ; 颜色 定义 在 文件 <linux/beard colors.h> 中 


int get pirate beard color(struct pirate *p) 
return p->beard.color; 

EXPORT_ SYMBOL (get pirate beard color); 

假定 get_pirate_beard_color() 同时 也 定义 在 一 个 可 访问 的 头 文件 中 ， 那 么 现在 任何 模块 都 
可 以 访问 它 。 有 一 些 开 发 者 希望 自己 的 接口 仅仅 对 GPL- 兼容 的 模块 可 见 ， 内 核 连接 器 使 用 
MODULE LICENSEO 宏 可 满足 这 个 要 求 。 如 果 你 希望 先前 的 函数 仅仅 对 标记 为 GPL 协议 的 模 
块 可 见 ， 那 么 你 就 需要 用 : 

EXPORT_ SYMBOL GPL (get pirate beard color); 


如 果 你 的 代码 被 配置 为 模块 ， 那 么 你 就 必须 确保 当 它 被 编译 为 模块 时 ， 它 所 用 的 全 部 接口 都 
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已 被 导出 ， 否 则 就 会 产生 连接 错误 〈 而 且 模块 不 能 成 功 编译 )。 


17.3 设备 模型 
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2.6 内 核 增 加 了 一 个 引信 注目 的 新 特性 一 一 统一 设备 模型 (device model)。 设 备 模型 提供 了 
一 个 独立 的 机 制 专门 来 表示 设备 ， 并 描述 其 在 系统 中 的 拓扑 结构 ， 从 而 使 得 系统 具有 以 下 优点 : 


* 代码 重复 最 小 化 。 


“ 提供 诸如 引用 计数 这 样 的 统一 机 制 。 


* 可 以 列举 系统 中 所 有 的 设备 ， 观 察 它 们 的 状态 ， 


并 且 查 看 它们 连接 的 总 线 。 


* 可 以 将 系统 中 的 全 部 设备 结构 以 树 的 形式 完整 、 有 效 地 展现 出 来 一 一 包括 所 有 的 总 线 和 内 


部 连接 。 


。 可 以 将 设备 和 其 对 应 的 驱动 联系 起 来 ， 反 之 亦 然 。 
* 可 以 将 设备 按照 类 型 加 以 归 类 ， 比 如 分 类 为 输入 设备 ， 而 无 需 理解 物理 设备 的 拓扑 结构 。 
“可 以 苔 设备 树 的 叶子 向 其 根 的 方向 依次 遍历 ， 以 保证 能 以 正确 顺序 关闭 各 设备 的 电源 。 
最 后 一 点 是 实现 设备 模型 的 最 初 动机 。 若 想 在 内 核 中 实现 智能 的 电源 管理 ， 就 需要 建立 表示 
系统 中 设备 拓扑 关系 的 树 结构 。 当 在 树 上 端的 设备 关闭 电源 时 ， 内 核 必须 首先 关闭 该 设备 节点 以 
下 的 处 于 叶子 上 的 〉 设备 电源 。 比 如 内 核 需要 先 关闭 一 个 USB 鼠标 ， 然 后 才 可 关闭 USB 控制 
器 ; 同样 内 核 也 必须 在 关闭 PCI 总 线 前 先 关闭 USB 控制 器 。 简 而 言 之 ， 若 要 准确 而 又 高 效 地 完 
成 上 述 电 源 管 理 目标 ， 内 核 无 疑 需要 一 棵 设备 树 。 


17.3.1 kobject 


设备 模型 的 核心 部 分 就 是 kobject (kernel object)， 它 由 struct kobject 结构 体 表示 , 定义 于 头 
文件 <linux/kebject.h> 中 。kobject 类 似 于 C# 或 Java 这 些 面 向 对 象 语 言 中 的 对 象 (object) 类 ， 


提供 了 诸如 引用 计数 、 名 称 和 父 指针 等 字段 ， 可 以 创建 对 象 的 层次 结构 。 


看 下 面 的 具体 结构 : 


struct kobject { 
const char 


struct list_ head 


struct kobject 
struct kset 


struct kobj_type 
struct sysfs dirent 


struct kref 
unsigned int 
unsigned int 
unsigned int 
unsigned int 
unsigned int 


}; 


*name; 

entry; 

*parent; 

*kset; 

*ktype; 

*sd; 

kref; 

state initialized:1; 
state_in sysfs:1; 

state add uevent sent:1; 
state_ remove uevent sent:1; 
Uevent suppress:1; 


name 指针 指向 此 kobject 的 名 称 。 
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parent 指针 指向 kobject 的 父 对 象 。 这 样 一 来 ，kobject 就 会 在 内 核 中 构造 一 个 对 象 层次 结构 ， 
并 且 可 以 将 多 个 对 象 间 的 关系 表现 出 来 。 就 如 你 所 看 到 的 ， 这 便 是 sysfs 的 真正 面目 : 一 个 用 户 
空间 的 文件 系统 ， 用 来 表示 内 核 中 kobject 对 象 的 层次 结构 。 

:sd 指针 指向 sysfs_dirent 结构 体 ， 该 结构 体 在 sysfs 中 表示 的 就 是 这 个 kobject。 从 Sys 文件 
系统 内 部 看 ， 这 个 结构 体 是 表示 kobject 的 一 个 inode 结构 体 。 

kref 提供 引用 计数 。ktype 和 kset 结构 体 对 kobject 对 象 进 行 描述 和 分 类 。 在 下 面 的 内 容 中 将 
详细 介绍 它们 。 

”kobject 通常 是 伐 入 其 他 结构 中 的 ， 其 单独 意义 其 实 并 不 大 。 相 反 ， 那 些 更 为 重要 的 结构 体 ， 

比如 定义 于 <linux/cdev.h> 中 的 struct cdev 中 才 真 正 需 要 用 到 kobj 结构 。 

/* cdev structure - 该 对 象 代表 一 个 字符 设备 */ 


struct cdev { 


struct kobject kobj; 
struct module *OWNer; 
const struct file operations *OpPBS; 
struct list_ head list; 
dev 七 dev; 
unsigned int count; 


}; 


当 kobject 被 杠 入 到 其 他 结构 中 时 ， 该 结构 便 拥有 了 kobject 提供 的 标准 功能 。 更 重要 的 一 点 
是 ， 伍 入 kobject 的 结构 体 可 以 成 为 对 象 层次 架构 中 的 一 部 分 。 比 如 cdev 结构 体 就 可 通过 其 父 指 
针 cdev->kobj.parent 和 链表 cdev->kobj.entry 插入 到 对 象 层次 结构 中 。 


17.3.2 ktype 


kobject 对 象 被 关联 到 一 种 特殊 的 类 型 ， 即 ktype (kernel object type 的 缩写 )。ktype 由 kobj_ 
type 结构 体 表示 ， 定 义 于 头 文件 <linux/kobject.h> 中 : 


struct kobj type { 
void {*release) (struct kobject *); 
const struct sysfs ops *sysfs_ops; 
j struct attribute **default attrs; 
ktype 的 存在 是 为 了 描述 一 族 kobject 所 具有 的 普遍 特性 。 如 此 一 来 ， 不 再 需要 每 个 kobject 
都 分 别 定义 自己 的 特性 ， 而 是 将 这 些 普遍 的 特性 在 ktype 结构 中 一 次 定义 ， 然 后 所 有 “同类 ”的 
kobject 都 能 共享 一 样 的 特性 。 
release 指针 指向 在 kobject 引用 计数 减 至 零 时 要 被 调用 的 析 构 函数 。 该 函数 负责 释放 所 有 
kobject 使 用 的 内 存 和 其 他 相关 清理 工作 。 
sysfs_ops 变量 指向 sysfs_ops 结构 体 。 该 结构 体 描述 了 sysfs 文件 读 写 时 的 特性 。 有 关 其 细 
节 参 见 17.3.9 节 。 
最 后 ，default_attrs 指向 一 个 attribute 结构 体 数 组 。 这 些 结构 体 定义 了 该 kobject 相关 的 默认 
属性 。 属 性 描述 了 给 定 对 象 的 特征 ， 如 果 该 kobject 导出 到 sysfs 中 ， 那 么 这 些 属性 都 将 相应 地 作 
为 文件 而 导出 。 数 组 中 的 最 后 一 项 必须 为 NULL。 
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17.3.3 kset 


kset 是 kobject 对 象 的 集合 体 。 把 它 看 成 是 一 个 容器 ， 可 将 所 有 相关 的 kobject 对 象 ， 比 如 
“全 部 的 块 设备 ” 置 于 同一 位 置 。 听 起 来 kset 与 ktype 非常 类 似 ， 好 像 没 有 多 少 实 质 内 容 。 那 么 
“为 什么 会 需要 这 两 个 类 似 的 东西 呢 ? ”kset 可 把 kobject 集中 到 一 个 集合 中 ， 而 ktype 描述 相关 
类 型 kobject 所 共有 的 特性 ， 它 们 之 间 的 重要 区 别 在 于 : 具有 相同 ktype 的 kobject 可 以 被 分 组 到 
不 同 的 kset。 就 是 说 ， 在 Linux 内 核 中 ， 只 有 少数 一 些 的 ktype， 却 有 多 个 kset。 

kobject 的 kset 指针 指向 相应 的 kset 集合 。kset 集合 由 kset 结 构 体 表示 ， 定 义 于 头 文件 
<linux/kobject.h> 中 : 


Struct kset { 


struct list head list; 
spinlock t list lock; 
struct kobject kobj ; 


struct kset uevent ops *uevent _ops; 


二 


在 这 个 结构 中 ， 其 中 list 连接 该 集合 (kset) 中 所 有 的 kobject 对 象 ，list_lock 是 保护 这 个 链 
表 中 元 素 的 自 旋 锁 (关于 自 旋 锁 的 讨论 ， 详 见 第 10 章 )，kobj 指向 的 koject 对 象 代表 了 该 集合 的 
基 类 。uevent ops 指向 一 个 结构 体 一 一 用 于 处 理 集 合 中 kobject 对 象 的 热 插 拔 操作 。uevent 就 是 
用 户 事件 (user event) 的 缩写 ,提供 了 与 用 户 空间 热 插 拔 信息 进行 通信 的 机 制 。 


17.3.4 ”kobject、ktype 和 kset 的 相互 关系 


上 文 反复 讨论 的 这 一 组 结构 体 很 容易 令 人 混淆 ， 这 可 不 是 因为 它们 数量 繁多 (其 实 只 有 三 
个 )， 也 不 是 它们 太 复 杂 它 们 都 相当 简单 )， 而 是 由 于 它们 内 部 相互 交织 。 要 了 解 kobject， 很 
难 只 讨论 其 中 一 个 结构 而 不 涉及 其 他 相关 结构 。 然 而 在 这 些 结构 的 相互 作用 下 ， 会 更 有 助 你 深刻 
理解 它们 之 闻 的 关系 。 2 

这 里 最 重要 的 家 伙 是 kobject， 它 由 struct koject 表示 。kobject 为 我 们 引入 了 诸如 引用 计数 
(reference counting)、 父 子 关 系 和 对 象 名 称 等 基本 对 象 道具 ， 并 且 是 以 一 个 统一 的 方式 提供 这 些 
功能 。 不 过 kobject 本 身 意义 并 不 大 ， 通 常情 况 下 它 需 要 被 嵌入 到 其 他 数据 结构 中 ， 让 那些 包含 
它 的 结构 具有 了 kobject 的 特性 。 人 

kobject 与 一 个 特别 的 ktype 对 象 关 联 ，ktype 由 struct kobj type 结构 体 表 示 ， 在 koject 中 
ktype 字段 指向 该 对 象 。ktype 定义 了 一 些 kobject 相关 的 默认 特性 ; 析 构 行为 《 反 构 造 功 能 )、 
sysfs 行为 (sysfs 的 操作 表 ) 以 及 别 的 一 些 默 认 属性 。 

kobject 又 归 入 了 称 作 kset 的 集合 , kset 集合 由 struct kset 结构 体 表 示 。kset 提供 了 两 个 功能 。 
第 一 ， 其 中 嵌入 的 kobject 作为 kobject 组 的 基 类 。 第 二 ，kset 将 相关 的 kobject 集合 在 一 起 。 在 
sysfs 中， 这些 相关 的 koject 将 以 独立 的 目录 出 现在 文件 系统 中 。 这 些 相关 的 目录 ， 也 许 是 给 定 
目录 的 所 有 子 目 录 ， 它 们 可 能 处 于 同一 个 kset。 

图 17-1 描述 了 这 些 数据 结构 的 内 在 关系 。 


286 名 17 生 


， 
且 
号 


AN AN 
一 
Se R 
| 
Se 4 
kobj 


图 17-1 kobject、kset 和 子 系统 的 内 在 关系 


17.3.5 “管理 和 操作 kobject 


当 了 解 了 kobject 的 内 部 基本 细节 后 ， 我 们 来 看 管理 和 操作 它 的 外 部 接口 了 。 多 数 时 候 ， 驱 动 程 
序 开 发 者 并 不 必 直 接 处 理 kobject， 因 为 kobject 是 被 嵌入 到 一 些 特殊 类 型 结构 体 中 的 (就 如 在 字符 设 
备 结构 体 中 看 到 的 情形 )， 而 且 会 由 相关 的 设备 驱动 程序 在 “幕后 ”管理 。 即 便 如 此 ，kobject 并 不 是 
有 意 在 隐藏 自己 ， 它 可 以 出 现在 设备 驱动 代码 中 ， 或 者 可 以 在 设备 驱动 子 系统 本 身 中 使 用 它 。 

使 用 kobjcet 的 第 一 步 需要 先 来 声明 和 初始 化 。kobject 通过 函数 kobject_init 进行 初始 化 ， 该 
函数 定义 在 文件 <linux/kobject.h> 中 : 


void kobject_init (struct kobject *kobj, struct kobj type *ktype); 


该 函数 的 第 一 个 参数 就 是 需要 初始 化 的 kobject 对 象 ， 在 调用 初始 化 函数 前 ，kobject 必须 清 
空 。 这 个 工作 往往 会 在 kobject 所 在 的 上 晨 结 构 体 初始 化 时 完成 。 如 果 kobject 未 被 清空 ， 那 么 只 
需要 调用 memset( 即 可 : 


memset (kobj, 0, sizeof (*kobj)); 
在 清 零 后 ， 就 可 以 安全 的 初始 化 parent 和 kset 字段 。 例 如 ， 


struct kobject *kobj; 


kobj = kmalloc (sizeof (*kobj)}, GFP_ KERNEL); 
if (!kobj) 
return -ENOMEM; 
memset (kobj, 0, sizeof (*kobj})}); 
kobj->kset = my _kset; 
kobject init (kobj, my_ktype); 


这 多 步 操作 也 可 以 由 kobject_create() 来 自动 处 理 ， 它 返回 一 个 新 分 配 的 kobject : 
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struct kobject *kobject create(void); 


使 用 相当 简单 : 


struct kobject *kobj; 


kobj = kobject create(); 
if (!kobj) 
return -ENOMEM; 
大 多 数 情 况 下 ， 应 该 调用 kobject_create0 创建 kobject， 或 者 是 调用 相关 的 辅助 函数 ， 而 不 
是 直接 操作 这 个 结构 体 。 


17.3.6 引用 计数 


kobject 的 主要 功能 之 一 就 是 为 我 们 提供 了 一 个 统一 的 引用 计数 系统 。 初 始 化 后 ，kobject 的 
引用 计数 设置 为 1。 只 要 引用 计数 不 为 零 ， 那 么 该 对 象 就 会 继续 保留 在 内 存 中 ， 也 可 以 说 是 被 
“ 钉 住 ” 了 。 任 何 包含 对 象 引 用 的 代码 首先 要 增加 该 对 象 的 引用 计数 ， 当 代码 结束 后 则 减少 它 的 
引用 计数 。 增 加 引用 计数 称 为 获得 〈getting) 对 象 的 引用 ， 减 少 引用 计数 称 为 释放 〈putting) 对 
象 的 引用 。 当 引用 计数 跌 到 零 时 ， 对 象 便 可 以 被 撤销 ， 同 时 相关 内 存 也 都 被 释放 。 

1. 递增 和 递减 引用 计数 

增加 一 个 引用 计数 可 通过 koject_getO 函数 完成 : 

struct kobject * kobject get (struct kobject *kobj) 

该 函数 正常 情况 下 将 返回 一 个 指向 kobject 的 指针 ， 如 果 失 败 则 返回 NULL 指针 ; 

减少 引用 计数 通过 kobject_put0 完成 ， 这 个 指令 也 声明 在 <linux/kobject.h> 中 : 

void kobject put (struct kobject *kobj); 

如 果 对 应 的 kobject 的 引用 计数 减少 到 零 ， 则 与 该 kobject 关联 的 ktype 中 的 析 构 函数 将 被 调用 。 

2. kref 


我 们 深入 到 引用 计数 系统 的 内 部 去 看 ， 会 发 现 kobject 的 引用 计数 是 通过 kref 结构 体 实现 
的 ， 该 结构 体 定义 在 头 文件 <linux/kref.h> 中 : 


struct kref { 
atomic t refcount; 
}; 


其 中 唯一 的 字段 是 用 来 存放 引用 计数 的 原子 变量 。 那 为 什么 采用 结构 体 ? 这 是 为 了 便于 进行 
类 型 检测 。 在 使 用 kref 前 ， 你 必须 先 通过 kref_init() 函数 来 初始 化 它 : 


void kref init(struct kref *kref) 


{ 


} 


正如 你 所 看 到 的 ， 这 个 函数 简单 地 将 原子 变量 置 1， 所 以 kref 一 旦 被 初始 化 ， 它 表示 的 引用 
计数 便 固 定 为 1。 这 点 和 kobject 中 的 计数 行为 一 致 。 


atomic set (gkref->refcount, 1); 
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要 获得 对 kref 的 引用 ， 需 要 调用 kref getO 函数 ， 这 个 函数 声明 在 <linux/krefh> 中 : 


void kref get (Struct kref *kref) 


人 
WARN ON ( !atomic read (&kref->refcount) ) ; 
atomic _ inc(&kref->refcount) 


} 


该 函数 增加 引用 计数 值 ， 它 没有 返回 值 。 减 少 对 kref 的 引用 ， 调 用 声明 在 <Linux/kreF.h> 中 
的 函数 kref_putO: 


int kref put (struct kref *kref, void (*release) (struct kref *kref)) 


WARN_ ON (release == NULL); 
WARN ON(release == {void (*) (struct kref *))kfree); 


if (atomic dec and test(&kref->refcount)) { 
release (kref); 
return 1; 


} 


return 0; 


} 


该 函数 将 使 得 引用 计数 减 1， 如 果 计 数 减少 到 零 ， 则 要 调用 作为 参数 提供 的 release0 函数 。 注 
意 WARN_ONO 声明 ， 提 供 的 release0 函数 不 能 简单 地 采用 kfree0， 它 必须 是 一 个 仅 接收 一 个 kref 
结构 体 作为 参数 的 特有 函数 ， 而 且 还 没有 返回 值 。kref putO 函数 返回 0， 但 有 一 种 情况 下 它 返 回 1， 
那 就 是 在 对 该 对 象 的 最 后 一 个 引用 减 1 时。 通常 情况 下 ，kref putO 的 调用 者 不 关心 这 个 返回 值 。 

开发 者 现在 不 必 在 内 核 代码 中 利用 atmoic t 类 型 来 实现 自己 的 引用 计数 和 简单 的 “get”、 
“put” 这 些 封装 函数 。 对 开发 者 而 言 ， 在 内 核 代码 中 最 好 的 方法 是 利用 kref 类 型 和 它 相 应 的 辅助 
函数 ， 为 自己 提供 一 个 通用 的 、 正 确 的 引用 计数 机 制 。 

上 述 的 所 有 函数 定义 与 声明 分 别 在 文件 lib/kref.c 和 文件 <linux/kref.h> 中 。 


17.4 sysfs 


sysf 文件 系统 是 一 个 处 于 内 存 中 的 虚拟 文件 系统 ， 它 为 我 们 提供 了 kobject 对 象 层 次 结构 的 
视图 。 帮 助 用 户 能 以 一 个 简单 文件 系统 的 方式 来 观察 系统 中 各 种 设备 的 拓扑 结构 。 借 助 属 性 对 
象 ，kobject 可 以 用 导出 文件 的 方式 ， 将 内 核 变量 提供 给 用 户 读 取 或 写 人 《〈 可 选 )。 

虽然 设备 模型 的 初衷 是 为 了 方便 电源 管理 而 提出 的 一 种 设备 拓扑 结构 ， 但 是 sysfs 是 颇 为 意 
外 的 收获 。 为 了 方便 调试 ， 设 备 模型 的 开发 者 决定 将 设备 结构 树 导 出 为 一 个 文件 系统 。 这 个 举 
措 很 快 被 证 明 是 非常 明智 的 ， 首 先 sysfs 代替 了 先前 处 于 /proc 下 的 设备 相关 文件 ; 另外 它 为 系 
统 对 象 提 供 了 一 个 很 有 效 的 视图 。 实 际 上 ，sysfs 起 初 被 称 为 driverfs， 它 早 于 kobject 出 现 。 最 
终 sysfs 使 得 我 们 认识 到 一 个 全 新 的 对 象 模 型 非常 有 利于 系统 ， 于 是 kobject 应 运 而 生 。 今 天 所 有 
2.6 内 核 的 系统 都 拥有 sysfs 文件 系统 ， 而 且 几 乎 都 毫 无 例外 的 将 其 挂 载 在 sys 目录 下 。 

sys 会 的 诀窍 是 把 kobject 对 象 与 目录 项 (directory entries) 紧密 联系 起 来 ， 这 点 是 通过 
kobject 对 象 中 的 dentry 字段 实现 的 。 回 忆 第 12 章 ，dentry 结构 体 表 示 目 录 项 ， 通 过 连接 kobject 
到 指定 的 目录 项 上 ， 无 疑 方便 地 将 kobject 映射 到 该 目录 上 。 从 此 ， 把 kobject 导出 形成 文件 系统 
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就 变 得 如 同 在 内 存 中 构建 目录 项 一 样 简单 。 好 了 ，kobject 其 实 已 经 形成 了 一 棵 树 一 一 就 是 我 们 
心爱 的 对 象 模型 体系 。 由 于 kobject 被 映射 到 目录 项 ， 同 时 对 象 层次 结构 也 已 经 在 内 存 中 形成 了 
一 棵 树 ， 因 此 sysfs 的 生成 便 水 到 渠 成 般 地 简单 了 。 


一 block 

-- loop0 -> ../devices/virtual/block/loop0 
~- md0 -> .. /devices/virtual/block/md0 

一 nbd0 -> ../devices/virtual/block/nbd0 
—— ram0 -> ../devices/virtual/block/ram0 
`“-- xvda -> ../devices/vbd-51712/block/xvda 
bus 

一 platform 
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| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
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一 vc 
‘~~ vtconsole 
一 dev 

| 一 block 

| “一 char 

—— devices 

一 console-0 
| — platform 
-- System 
| 一 vbd-51712 
| | 一 vbd-51728 
| |-- vif-0 

| “一 virtual 

| 一 firmware 

| 一 fs 

| 一 ecryptfs 
| 一 ext4 

| -- fuse 
| 
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| 
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| 
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| 

| 








“-- gfs2 

一 kernel 

一 config 

|— dlm 

| 一 mm 

一 notes 

一 Uevent helper 

一 Uevent seqnum 
-一 uids 

“一 module 
| 一 ext4 
|-- i8042 
|-- kernel 
|-- keyboard 
|— mousedev 
|-- nbd 
|-- printk 
|-- psmouse 
| 一 sch_htb 
[一 tcp_cubic 
|-- vt 
“-- xt_recent 


图 17-2 挂 载 于 /sys 目录 下 的 sysfs 文件 系统 的 局 部 视图 
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sysfs 的 根 目录 下 包含 了 至 少 十 个 目录 : block、bus、class、dev、devices、firmware、 人 会、kemei、 
module 和 power。block 目录 下 的 每 个 子 目录 都 对 应 着 系统 中 的 一 个 已 注册 的 块 设备 。 反 过 来 ， 每 个 
目录 下 又 都 包含 了 该 块 设备 的 所 有 分 区 。bus 目录 提供 了 一 个 系统 总 线 视图 。class 目录 包含 了 以 高 层 
功能 逻辑 组 织 起 来 的 系统 设备 视图 。derv 目录 是 已 注册 设备 节点 的 视图 。devices 目录 是 系统 中 设备 
拓扑 结构 视图 ， 它 直接 映射 出 了 内 核 中 设备 结构 体 的 组 织 层次 。firmware 目录 包含 了 一 些 诸如 ACPI、 
EDD、EFI 等 低层 子 系统 的 特殊 树 。 全 目录 是 已 注册 文件 系统 的 视图 。kemel 目录 包含 内 核 配置 项 和 
状态 信息 ，module 目录 则 包含 系统 已 加 载 模块 的 信息 。power 目录 包含 系统 范围 的 电源 管理 数据 。 并 
不 是 所 有 的 系统 都 包含 所 有 这 些 目录 ， 还 有 些 系统 含有 其 他 目录 ， 但 在 这 里 尚未 提 和 到。 

其 中 最 重要 的 目录 是 devices， 该 目录 将 设备 模型 导出 到 用 户 空间 。 目 录 结 构 就 是 系统 中 
实际 的 设备 拓扑 。 其 他 目录 中 的 很 多 数据 都 是 将 devices 目录 下 的 数据 加 以 转换 加 工 而 得 。 比 
如 ，/sys/class/net/ 目录 是 以 注册 网 络 接口 这 一 高 娠 概念 来 组 织 设备 关系 的 ， 在 这 个 目录 中 可 能 会 有 
目录 eth0， 它 里 面包 含 的 devices 文件 其 实 就 是 一 个 指 回 到 devices 下 实际 设备 目录 的 符号 连接 。 

随便 看 看 你 可 访问 到 的 任何 Linux 系统 的 sys 目录 ， 这 种 系统 设备 视图 相当 准确 和 漂亮 ， 而 
且 可 以 看 到 class 中 的 高 层 概念 与 devices 中 的 低层 物理 设备 ， 以 及 bus 中 的 实际 驱动 程序 之 间 互 
相 联 络 是 非常 广泛 的 。 当 你 认识 到 这 种 数据 是 开放 的 ， 换 名 话说 ， 这 是 内 核 中 维持 系统 的 很 好 表 
示 方 式 S 时 , 整个 经 历 都 弥 足 珍贵 。 


17.4.1 sysfs 中 添加 和 删除 kobject 


仅仅 初始 化 kobject 是 不 能 自动 将 其 导出 到 sysfs 中 的 ， 想 要 把 kobject 导入 sysfs， 你 需要 用 
到 国 数 kobject_add() : 


int kobject add(struct kobject *kobj, struct kobject *parent, const char *fmt, ...); 


kobject 在 sysfs 中 的 位 置 取决 于 kobject 在 对 象 层次 结构 中 的 位 置 。 如 果 kobject 的 父 指 针 
被 设置 ， 那 么 在 sysfs 中 kobject 将 被 映射 为 其 父 目 录 下 的 子 目录 ; 如 果 parent 没有 设置 ， 那 么 
kobject 将 被 映射 为 kset->kobj 中 的 子 目 录 。 如 果 给 定 的 kobject 中 parent 或 kset 字段 都 没有 被 设 
置 ， 那 么 就 认为 kobject 没有 父 对 象 ， 所 以 就 会 被 映射 成 sysfs 下 的 根 级 目录 。 这 往往 不 是 你 所 需 
要 的 ， 所 以 在 调用 kobject_add() 前 parent 或 kset 字段 应 该 进行 适当 的 设置 。 不 管 怎么 样 ，sysfs 
中 代表 kobject 的 目录 名 字 是 由 fmt 指定 的 ， 它 也 接受 printf() 样式 的 格式 化 字符 串 。 

辅助 函数 kobject_create_and_add0 把 kobject_create() 和 kobject add0 所 做 的 工作 放 在 一 个 
函数 中 过 


struct kobject *kobject create and add(const char *name, struct kobject *parent); 


注意 ”kobject_create and add() 也 数 接受 直接 的 指针 name 作为 kobject 所 对 应 的 目录 名 称 ， 
而 kobject add0 使 用 printfO) 风格 的 格式 化 字符 串 。 


日 ”如 果 你 对 sysfs 感 兴趣 ， 你 可 能 也 会 对 HAL 感 兴趣 ， 它 是 一 个 硬件 抽象 层 ， 可 以 在 http://hal.freedesktop.org/. 
wiki/software/hal 找到 它 。HAL 基于 sysfs 中 的 数据 建立 起 了 一 个 内 存 数据 库 ， 将 class 概念 、 设 备 概念 和 驱动 
概念 联系 到 一 起 。 在 这 些 数据 之 上 ，HAL 提供 了 丰富 的 API 以 使 得 应 用 程序 更 灵活 。 
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从 sysfs 中 删除 一 个 kobject 对 应 文件 目录 ， 需 使 用 函数 kobject_del0 : 


void kobject dellstruct kobject *kobi}; 


上 述 这 些 函 数 都 定义 于 文件 lib/kobject.c 中 ， 声 明 于 头 文件 <linux/kobject.h> 中 。 
17.4.2 ”向 sysfs 中 添加 文件 


我 们 已 经 看 到 kobject 被 映射 为 文件 目录 ， 而 且 所 有 的 对 象 层 次 结构 都 优雅 地 、 一 个 不 少 地 
映射 成 sys 下 的 目录 结构 。 但 是 里 面 的 文件 是 什么 ? sysfs 仅仅 是 一 个 漂亮 的 树 ， 但 是 没有 提供 
实际 数据 的 文件 。 

1. 默认 属性 

默认 的 文件 集合 是 通过 kobject 和 kset 中 的 ktype 字段 提供 的 。 因 此 所 有 具有 相同 类 型 
的 kobject 在 它们 对 应 的 sysfs 目录 下 都 拥有 相同 的 默认 文件 集合 。kobj_type 字段 含有 一 个 字 
段 一 一 default_attrs， 它 是 一 个 attribute 结构 体 数 组 。 这 些 属性 负责 将 内 核 数 据 映射 成 sysfs 中 
的 文件 。 

attribute 结构 体 定义 在 文件 <linux/sysfs.h> 中 : 

/* attribute 结构 体 - 内 核 数 据 映 射 成 sysfs 中 的 文件 */ 


struct attribute { 


const char *name; /* 属性 名 称 */ 
struct module *owner; ”/* 所 属 模 块 ， 如 果 存 在 */ 
mode t mode; /* 权限 */ 


}3 


其 中 名 称 字段 提供 了 该 属性 的 名 称 ， 最 终 出 现在 sysfs 中 的 文件 名 就 是 它 。owner 字段 在 存 
在 所 属 模块 的 情况 下 指向 其 所 属 的 module 结构 体 。 如 果 一 个 模块 没有 该 属性 ， 那 么 该 字段 为 
NULL。mode 字段 类 型 为 mode_t， 它 表示 了 sysfs 中 该 文件 的 权限 。 对 于 只 读 属性 而 言 ， 如 果 是 
所 有 人 都 可 读 它 ， 那 么 该 字段 被 设 为 S_IRUGO ; 如 果 只 限于 所 有 者 可 读 ， 则 该 字段 被 设置 为 S_ 
IRUSR。 同 样 对 于 可 写 属 性 ， 可 能 会 设置 该 字段 为 S_IRUGO | S_IWUSR。sysfs 中 的 所 有 文件 和 
目录 的 uid 与 gid 标志 均 为 零 。 
虽然 default_attrs 列 出 了 默认 的 属性 ，sysfs_ops 字段 则 描述 了 如 何 使 用 它们 。sysfs_ops 字段 
指向 了 一 个 定义 于 文件 <linux/sysfs.b> 的 同名 的 结构 体 : 
struct sysfs ops { 
/* 在 读 sysfs 文件 时 该 方法 被 调用 */ 
ssize t (*show) (struct kobject *kobj, 


struct attribute *attr, 
char *pbuffer); 


/* 在 写 sysfs 文件 时 该 方法 被 调用 */ 

ssize t (*store) (struct kobject *kobj, 
struct attribute *attr, 
const char *buffer, 
size t size); 
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当 从 用 户 空间 读 取 sysfs 的 项 时 调用 show0 方法 。 它 会 拷贝 由 attr 提供 的 属性 值 到 buffer 指 
定 的 缓冲 区 中 ， 缓 冲 区 大 小 为 PAGE _ SIZE 字 节 ; 在 x86 体系 中 ，PAGE SIZE 为 4096 字 节 。 该 
函数 如 果 执 行 成 功 ， 则 将 返回 实际 写 入 buffer 的 字 节 数 ; 如 果 失 败 ， 则 返回 负 的 错误 码 。 

store() 方法 在 写 操作 时 调用 ， 它 会 从 buffer 中 读 取 size 大 小 的 字 节 ， 并 将 其 存放 入 attr 表示 
的 属性 结构 体 变量 中 。 缓 冲 区 的 大 小 总 是 为 PAGE _SIZE 或 更 小 些 。 该 函数 如 果 执 行 成 功 ， 则 将 
返回 实际 从 buffer 中 读 取 的 字 节 数 ; 如 果 失 败 ， 则 返回 负数 的 错误 码 。 

由 于 这 组 函数 必须 对 所 有 的 属性 都 进行 文件 IO 请 求 处 理 ， 所 以 它们 通常 需要 维护 某 些 通用 
映射 来 调用 每 个 属性 所 特有 的 处 理 函 数 。 

2. 创建 新 属性 

通常 来 讲 ， 由 kobject 相关 ktype 所 提供 的 默认 属性 是 充足 的 ， 事 实 上 ， 因 为 所 有 具有 相同 
ktype 的 kobject， 在 本 质 上 区 别 不 大 的 情况 下 ， 都 应 是 相互 接近 的 。 也 就 是 说 ， 比 如 对 于 所 有 的 
分 区 而 言 ， 它 们 完全 可 以 具有 同样 的 属性 集合 。 这 不 但 可 以 让 事情 简单 ， 有 助 于 代码 合并 ， 还 使 
类 似 对 象 在 sysfs 目录 中 外 观 一 致 。 

但 是 ， 有 时 在 一 些 特 别 情况 下 会 磁 到 特殊 的 kobject 实例 。 它 希望 〈 甚 至 是 必须 ) 有 自己 的 
属性 一 一 也 许 是 通用 属性 没 包含 那些 需要 的 数据 或 者 函数 。 为 此 ， 内 核 为 能 在 默认 集合 之 上 ， 表 
添加 新 属性 而 提供 了 sysfs_create_file() 接口 : 


int sysfs_create file(struct kobject *kobj, const struct attribute *attr); 


这 个 接口 通过 attr 参数 指向 相应 的 attribute 结构 体 ， 而 参数 kobj 则 指定 了 属性 所 在 的 
kobject 对 象 。 在 该 函数 被 调用 前 ， 给 定 的 属性 将 被 赋值 ， 如 果 成 功 ， 交 国 和 由 否则 返回 
负 的 错误 码 。 

注意 ，kobject 中 ktype 所 对 应 的 sysfs_ops 操作 将 负责 处 理 新 属性 。 现 有 的 showO 和 store0 
方法 必须 能 够 处 理 新 属性 。 

除了 添加 文件 外 ， 还 有 可 能 需要 创建 符号 连接 。 在 sysfs 中 创建 一 个 符号 连接 相当 简单 : 


int sysfs_create link(struct kobject *kobj, struct kobject *target, char *name); 

该 函数 创建 的 符号 连接 名 由 name 指定 ， 连 接 则 由 kobj 对 应 的 目录 映射 到 target 指定 的 目 
录 。 如 果 成 功 该 函数 返回 零 ， 如 果 失 败 返 回 负 的 错误 码 。 

3. 删除 新 属性 

删除 一 个 属性 需 通 过 函数 sysfs_remove_file() 完成 : 

void sysfs_ remove file(struct kobject *kobj, const struct attribute *attr); 

一 旦 调用 返回 ， 给 定 的 属性 将 不 再 存在 于 给 定 的 kobject 目录 中 。 另 外 由 sysfs_creat_link() 
创建 的 符号 连接 可 通过 函数 sysfs_remove_link( 删除 : 

void sysfs remove link(struct kobject *kobj, char *name); 

,调用 一 旦 返回 ， 在 kobj 对 应 目录 中 的 名 为 name 的 符号 连接 将 不 复 存在 。 

上 述 的 四 个 函数 在 文件 <linux/kobject.h> 中 声明 ; sysfs_create file() 和 sysfs_remove file() 
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函数 定义 于 文件 fs/sysfs/file.c. 中 ; sysfs_create_link() 和 sysfs remove link() 函数 定义 于 文件 fs/ 
sysfs/symlink.c 中 。 

4. sysfs 约定 

当前 sysfs 文件 系统 代替 了 以 前 需要 由 ioctl())〈 作 用 于 设备 节点 ) 和 procfs 文件 系统 完成 的 
功能 。 目 前 ， 在 合适 目录 下 实现 sysf 属性 这 样 的 功能 的 确 别具一格 。 比 如 利用 在 设备 映射 的 
sysfs 目录 中 添加 一 个 sysfs 属性 ， 代 替 在 设备 节点 上 实现 一 新 的 ioctl()。 采 用 这 种 方法 避免 了 在 
调用 ioctlO 时 使 用 类 型 不 正确 的 参数 和 和 弄 乱 /proc 目录 结构 。 

但 是 为 了 保持 sysfs 干净 和 直观 ， 开 发 者 必须 遵从 以 下 约定 。 

首先 ，sysfs 属性 应 该 保证 每 个 文件 只 导出 一 个 值 ， 该 值 应 该 是 文本 形式 而 且 映射 为 简单 C 
类 型 。 其 目的 是 为 了 避免 数据 的 过 度 结构 化 或 太 凌 乱 ， 现 在 /proc 中 就 混乱 而 不 具有 可 读 性 。 每 
个 文件 提供 一 个 值 ， 这 使 得 从 命令 行 读 写 变 得 简洁 ， 同 时 也 使 C 语言 程序 轻易 地 将 内 核 数 据 从 
sysf 导入 到 自身 的 变量 中 去 。 但 有 些 时 候 ， 一 值 一 文件 的 规则 不 能 很 有 效 地 表示 数据 ， 那 么 可 
以 将 同一 类 型 的 多 个 值 放 入 一 个 文件 中 。 不 过 这 时 需要 合理 地 表述 它们 ， 比 如 利用 一 个 空格 也 
许 就 可 使 其 意义 清晰 明了 。 总 的 来 讲 ， 应 考虑 sysfs 属性 要 映射 到 独立 的 内 核 变 量 (正如 通常 常 所 
做 )， 而 且 要 记 住 应 保证 从 用 户 空 间 操作 简单 ， 尤 其 是 从 shell 操作 简单 。 

其 次 ， 在 sysfs 中 要 以 一 个 清晰 的 层次 组 织 数 据 。 父 子 关系 要 正确 才能 将 kobject 层次 结构 直 
观 地 映射 到 sysfs 树 中 。 另 外 ，kobject 相关 属性 同样 需要 正确 ， 并 且 要 记 住 kobject 层次 结构 不 
仅仅 存在 于 内 核 ， 而 且 也 要 作为 一 个 树 导出 到 用 户 空间 ， 所 以 要 保证 sysfs 树 健全 无 误 。 

最 后 ， 记 住 sysfs 提供 内 核 到 用 户 空间 的 服务 ， 这 多 少 有 些 用 户 空 间 的 ABI (应 用 程序 二 进 
制 接口 的 作用 。 用 户 程 序 可 以 检测 和 获得 其 存在 性 、 位 置 、 取 值 以 及 sysfs 目录 和 文件 的 行为 。 
任何 情况 下 都 不 应 改变 现 有 的 文件 ， 另 外 更 改 给 定 属性 ， 但 保留 其 名 称 和 位 置 不 变 无 疑 是 在 自 找 
麻烦 。 

这 些 简 单 的 约定 保证 sysfs 可 为 用 户 空 间 提供 丰富 和 直观 的 接口 。 正 确 使 用 sysfs， 其 他 应 用 
程序 的 开发 者 绝 不 会 对 你 的 代码 抱 有 微 辞 ， 相 反 会 赞美 它 。 


17.4.3 ”内 核 事 件 层 


内 核 事 件 层 实现 了 内 核 到 用 户 的 消息 通知 系统 一 就 是 建立 在 上 文 一 直 讨论 的 kobject 基础 
之 上 。 在 2.6.0 版 本 以 后 ， 显 而 易 见 ， 系 统 确实 需要 一 种 机 制 来 帮助 将 事件 传 出 内 核 输 送 到 用 户 
空间 ， 特 别 是 对 桌面 系统 而 言 ， 因 为 它 需要 更 完整 和 异步 的 系统 。 为 此 就 要 让 内 核 将 其 事件 压 到 
堆栈 : 硬盘 满 了 ! 处 理 器 过 热 了 ! 分 区 挂 载 了 ! 

早期 的 事件 层 没 有 采用 kobject 和 sys 名， 它们 如 过 眼 烟云 ， 没 有 存在 多 久 。 现 在 的 事件 层 借 
助 koject 和 sysfs 实现 已 证 明 相当 理想 。 内 核 事 件 层 把 事件 模拟 为 信号 一 一 从 明确 的 koject 对 
象 发 出 ， 所 以 每 个 事件 源 都 是 一 个 sysfs 路 径 。 如 果 请 求 的 事件 与 你 的 第 一 个 硬盘 相关 ， 那 么 / 
sys/block/had 便 是 源 树 。 实 质 上 ， 在 内 核 中 我 们 认为 事件 都 是 从 幕后 的 kobject 对 象 产生 的 。 

每 个 事件 都 被 赋予 了 一 个 动词 或 动作 字符 串 表 示 信 号 。 该 字符 串 会 以 “被 修改 过 ”或 “未 挂 
载 ” 等 词语 来 描述 事件 。 
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最 后 ， 每 个 事件 都 有 一 个 可 选 的 负载 (payload)。 相 比 传递 任意 一 个 表示 负载 的 字符 串 到 用 
户 空间 而 言 ， 内 核 事 件 层 使 用 sysfs 属性 代表 负载 。 

从 内 部 实现 来 讲 ， 内 核 事件 由 内 核 空间 传递 到 用 户 空间 需要 经 过 netlink。netlink 是 一 个 用 
于 传送 网 络 信息 的 多 点 传送 套 接 字 。 使 用 netlink 意味 着 从 用 户 空间 获取 内 核 事件 就 如 同 在 套 接 
字 上 堵塞 一 样 易 如 反 掌 。 方 法 就 是 用 户 空 间 实 现 一 个 系统 后 台 服务 用 于 监听 套 接 字 ， 处 理 任 何 读 
到 的 信息 ， 并 将 事件 传送 到 系统 栈 里 。 对 于 这 种 用 户 后 台 服 务 来 说 ， 一 个 潜在 的 目的 就 是 将 事件 
融入 D-BUS 系统 8。D-BUS 系统 已 经 实现 了 一 套 系统 范围 的 消息 总 线 ， 这 种 总 线 可 帮助 内 核 如 
同系 统 中 其 他 组 件 一 样 地 发 出 信号 。 

在 内 核 代 码 中 向 用 户 空间 发 送信 号 使 用 函数 kobject_uevent() : 


int kobject uevent(struct kobject *kobj,enum kobject action action) ; 


第 一 个 参数 指定 发 送 该 信号 的 koject 对 象 。 实 际 的 内 核 事 件 将 包含 该 koject 映射 到 sysfs 的 
路 径 。 

第 二 个 参数 指定 了 描述 该 信号 的 “动作 ”或 “动词 ”实际 的 内 核 事 件 将 包含 一 个 映射 
成 枚 举 类 型 kobject_action 的 字符 串 。 该 函数 不 是 直接 提供 一 个 字符 串 ， 而 是 利用 一 个 枚 举 变 
量 来 提高 可 重用 性 和 保证 类 型 安全 ， 而 且 也 消除 了 打字 错误 或 其 他 错误 。 该 枚 举 变量 定义 于 
文件 <linux/kobject_uevent.c> 中 ， 其 形式 为 kOBJ foo。 当 前 值 包含 koOBJI MOUNT、kOBJ_ 
UNMOUNT  kOBJ_ ADD, kOBJ REMOVE 和 kOBJ CHANGE 等 ， 这 些 值 分 别 映射 为 字符 串 
“mount”、 “unmount” “add”“remove” 和 “change” 等 。 当 这 些 现 有 的 值 不 够 用 时 ， 人 允许 添加 
新 动作 。 

使 用 kobject 和 属性 不 但 有 利于 很 好 的 实现 基于 sysfs 的 事件 ， 同 时 也 有 利于 创建 新 kojects 
对 象 和 属性 来 表示 新 对 象 和 数据 一 一 它们 尚未 出 现在 sysfs 中 。 

这 两 个 函数 分 别 定义 和 声明 于 文件 lib/kobject_uevent.c 与 文件 <linux/kobject.h> 中 。 


17.5 ”小结 


本 章 中 ， 我 们 考察 的 内 核 功能 涉及 设备 驱动 的 实现 和 设备 树 的 管理 ， 包 括 模块 、kobject 〈 以 
及 相关 的 kset 和 ktype) 和 sysfs。 这 些 功 能 对 于 设备 驱动 程序 的 开发 者 来 说 是 至 关 重 要 的 ， 因 为 
这 能 够 让 他 们 写 出 更 为 模块 化 、 更 为 高 级 的 驱动 程序 。 

这 章 讨论 了 内 核 中 我 们 要 学 习 的 最 后 一 个 子 系统 ， 从 下 面 开始 要 介绍 一 些 普遍 的 但 却 重 要 的 
主题 ， 这 些 主题 是 任何 一 个 内 核 开发 者 都 需要 了 解 的 ， 首 先 要 讲 的 就 是 调试 ! 


日 想 了 解 D-BUS 更 多 的 信息 ， 参 见 http://dbus.freedesktop.org/。 


调试 工作 艰难 是 内 核 级 开发 区 别 于 用 户 级 开发 的 一 个 显著 特点 。 相 比 于 用 户 级 开发 ， 内 核 调 
试 的 难度 确实 要 艰苦 得 多 。 更 可 怕 的 是 ， 它 带 来 的 风险 比 用 户 级 别 更 高 ， 内 核 的 一 个 错误 往往 立 
刻 就 能 让 系统 崩溃 。 

驾驭 内 核 调试 的 能 力 〈 当 然 ， 最 终 是 为 了 能 够 成 功 地 开发 内 核 ) 很 大 程度 上 取决 于 经 验 和 对 
整个 操作 系统 的 把 握 。 没 错 ， 玉 树 临 风 可 能 会 对 别 的 事情 有 帮助 ， 但 是 调试 内 核 的 关键 还 是 在 于 
你 对 内 核 的 深刻 理解 。 然 而 我 们 必须 找到 可 以 开始 着 手 的 地 方 ， 所 以 ， 在 这 一 章 里 我 们 从 调试 内 
核 的 一 种 可 能 步骤 开始 。 


18.1 准备 开始 


内 核 调试 往往 是 一 个 令 人 挠 头 不 已 的 漫长 过 程 。 不 少 bug 已 经 让 整个 开发 社区 几 个 月 都 食 
不 甘 味 了 。 幸 运 的 是 ， 在 这 些 费 劲 的 问题 中 也 有 不 少 比较 简单 ， 而 且 容 易 消 灭 的 小 bug。 运气 好 
时 ， 你 可 能 面 对 的 是 些 简单 的 小 bag。 开始 做 一 些 调查 之 前 ， 不 会 清楚 到 底面 对 的 是 什么 。 现 
在 ， 需 要 的 只 是 : 

“一 个 bug。 听 起 来 很 可 笑 ， 但 确实 需要 一 个 确定 的 bug。 如 果 错 误 总 是 能 够 重 现 的 话 ， 那 

对 我 们 会 有 很 大 的 帮助 《有 一 部 分 错误 确实 如 此 )。 然 而 不 幸 的 是 ， 大 部 分 bug 通常 都 不 

是 行为 可 靠 而 且 定义 明确 的 。 

“ 一 个 藏匿 bug 的 内 核 版 本 。 如 果 你 知道 这 个 bug 最 早出 现在 哪个 内 核 版 本 中 那 就 再 理想 不 

过 了 。 如 果 你 还 不 知道 的 话 ， 别 着 急 ， 本 章 会 教 你 一 个 快速 找 出 这 个 bug 首先 出 现在 哪个 

内 核 版 本 中 的 方法 。 

* 相关 内 核 代 码 的 知识 和 运气 。 调 试 内 核 其 实 是 一 个 棘手 的 问题 。 不 过 对 周围 的 代码 理解 得 

越 多 ， 调 试 起 来 也 就 越 轻松 。 

本 章 中 的 大 多 数 方法 都 假定 能 够 让 bug 重 现 。 因 此 ， 想 要 成 功 地 进行 调试 ， 就 取决 于 是 否 
能 让 这 些 错 误 重 现 。 如 果 不 能 ， 消 灭 bug 就 只 能 通过 抽象 出 问题 ， 再 从 代码 中 搜索 蛛丝马迹 来 进 
行 了 。 虽 然 有 时 也 得 这 么 做 ， 但 如 果 你 能 够 让 错误 重 现 ， 成 功 的 机 会 要 大 许多 。 

有 一 些 bug 存在 而 且 有 人 没 办 法 让 它 重 现 ， 这 听 起 来 可 能 感觉 挺 奇怪 。 在 用 户 级 的 程序 里 ， 
bug 常常 表现 得 很 直截了当 。 比 如 ， 执 行 foo 就 会 让 程序 立即 产生 核心 信息 转 储 (dump core )。 
但 是 内 核 中 的 bug 表现 却 不 是 那么 清晰 。 内 核 、 用 户 程序 和 硬件 之 间 的 交互 常常 会 很 微妙 。 一 
个 竞争 条 件 可 能 在 几 百 万 次 的 算法 迭代 中 才 露 出 一 次 狠 狼 的 面孔 。 设 计 不 佳 的 (甚至 是 包含 错误 
的 ) 代码 在 某 些 系 统 上 可 能 还 让 人 可 以 忍受 ， 而 在 其 他 的 一 些 系统 中 却 表现 得 相当 糟糕 。 在 一 些 
特定 的 配置 、 一 些 特 定 的 机 器 上 ， 通 常 都 需要 付出 额外 的 努力 来 触发 某 个 bug， 不 然 的 话 ， 根 本 


296 禄 18 重 


看 不 到 它 。 在 跟踪 bug 的 时 候 ， 和 掌握 的 信息 越 多 越 好 。 许 多 时 候 ， 当 可 以 精确 地 重 现 一 个 bug 的 
时 候 ， 就 已 经 成 功 了 一 大 半 了 。 


18.2 “内核 中 的 bug 


内 核 中 的 bug 多 种 多 样 。 它 们 的 产生 可 以 有 无 数 的 原因 ， 同 时 它们 的 表象 也 变化 多 端 。 从 
明白 无 误 的 错误 代码 比如， 没有 把 正确 的 值 存放 在 恰当 的 位 置 ) 到 同步 时 发 生 的 错误 比如 ， 
共享 变量 锁定 不 当 )， 再 到 错误 地 管理 硬件 〈 比 如， 给 错误 的 控制 寄存 器 发 送 错误 的 指令 ) ; 从 降 
低 所 有 程序 的 运行 性 能 到 毁坏 数据 再 到 使 得 系统 处 于 死 锁 状态 ， 都 可 能 是 bug 发 作 时 的 症状 。 

从 隐藏 在 源 代码 中 的 错误 到 展现 在 目击 者 面前 的 bug， 往 往 是 经 历 一 系列 连锁 反应 的 事件 才 
可 能 触发 的 。 举 个 例子 ， 一 个 被 共享 的 结构 体 ， 如 果 它 没有 引用 计数 ， 那 么 它 就 有 可 能 会 引发 竞 
争 条 件 。 因 为 没有 引用 计数 的 话 ， 一 个 进程 可 以 在 另外 一 个 进程 仍然 需要 使 用 该 结构 的 时 候 就 释 
放 掉 它 。 继 而 ， 第 二 个 进程 就 有 可 能 试图 通过 无 效 的 指针 去 使 用 一 个 不 存在 的 数据 结构 。 这 样 做 
可 能 导致 引用 一 个 空 指针 ， 也 可 能 导致 读 出 一 些 垃圾 数据 ， 还 可 能 并 不 产生 什么 恶果 (如果 该 数 
据 并 没有 被 其 他 什么 覆盖 的 话 )。3 引 用 空 指针 会 导致 产生 一 个 oops， 而 垃圾 数据 可 能 会 导致 系统 
崩溃 (这 种 情形 比 oops 还 坏 )。 用 户 报告 了 oops 或 系统 的 错误 现象 之 后 ， 开 发 者 回 过 头 来 观察 
错误 情形 ， 发 现在 释放 数据 之 后 还 会 对 它 进行 读 写 ， 存 在 着 一 个 竞争 条 件 ， 于 是 就 会 进行 修正 ， 
给 这 个 共享 的 结构 加 上 适当 的 引用 计数 。 

内 核 调试 听 起 来 很 难 ， 但 事实 上 Linux 内 核 与 其 他 大 型 的 软件 项 目 也 没有 什么 太 大 的 不 同 。 
内 核 确实 有 一 些 独 特 的 问题 需要 考虑 ， 像 定时 限制 和 竞争 条 件 等 ， 它 们 都 是 允许 多 个 线程 在 内 核 
中 同时 运行 产生 的 结果 。 


18.3 通过 打印 来 调试 


内 核 提 供 的 打印 函数 printk0 和 C 库 提 供 的 printf0 函数 功能 几乎 相同 。 实 际 上 ， 在 本 书 中 
我 们 都 没有 用 到 这 两 个 国 数 的 不 同 部 分 。 从 它 实 现 的 大 部 分 意图 来 说 ， 这 个 名 字 很 不 错 ，PprintkO 
就 是 内 核 的 格式 化 打印 函数 。 但 是 ，printk0 确实 还 有 一 些 自身 特殊 的 功能 。 


18.3.1 健壮 性 


健壮 性 是 printk0 函数 最 容易 让 人 们 接受 的 一 个 特质 。 任 何 时 候 ， 任 何 地 方 都 能 调用 它 ， 内 
核 中 的 printk0 比比 皆 是 。 可 以 在 中 断 上 下 文 和 进程 上 下 中 被 调用 ; 可 以 在 任何 持 有 锁 时 被 调 
用 ; 可 以 在 多 处 理 器 上 同时 被 调用 ， 而 且 调 用 者 连锁 都 不 必 使 用 。 

它 是 一 个 弹性 极 佳 的 函数 。 这 一 点 相当 重要 ，printk0 之 所 以 这 么 有 用 ， 就 在 于 它 随时 都 能 
被 调用 。 

Printk( 函数 的 健壮 舱 过 下 也 难免 会 有 漏洞 。 在 系统 启动 过 程 中 ， 终 端 还 没有 初始 化 之 前 ， 
在 某 些 地 方 不 能 使 用 它 。 不 过 说 实在 的 ， 如 果 终 端 没有 初始 化 ， 你 又 能 输出 到 什么 地 方 去 呢 ? 

这 一 般 不 是 一 个 什么 问题 ， 除 非 你 要 调试 的 是 启动 过 程 最 开始 的 那些 步骤 〈 比 如 说 在 负责 执 
行 硬件 体系 结构 相关 的 初始 化 动作 的 setup_arch0 函数 中 )。 着 手 进行 这 样 的 调试 挑战 性 很 强 一 一 
没有 任何 打印 函数 能 用 ， 确 实 让 问题 更 加 棘手 。 
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不 过 还 是 有 一 些 可 以 指望 的 (虽然 不 多 )。 核 心 硬件 部 分 的 黑客 依靠 此 时 能 够 工作 的 硬件 
设备 (比如 说 一 个 串口 ) 与 外 界 通 信 。 绝 大 部 分 人 对 此 都 不 会 感 兴趣 。 解 决 的 办 法 是 提供 一 个 
printk0 的 变 体 函数 一 一 early_printk(y)， 这 个 函数 在 启动 过 程 的 初期 就 具有 在 终端 上 打印 的 能 力 。 
它 的 功能 与 prink0 完全 相同 ， 区 别 仅仅 在 于 名 字 和 能 够 更 早 地 工作 。 不 过 ， 由 于 该 函数 在 一 些 
内 核 支 持 的 硬件 体系 结构 上 无 法 实现 ， 所 以 这 种 办 法 缺少 可 移植 性 。 但 是 ， 如 果 所 使 用 的 硬件 体 
系 可 以 实现 这 个 函数 〈 大 多 数 硬件 体系 都 可 以 ， 包 括 x86)， 它 就 是 最 好 的 指望 。 

除非 在 启动 过 程 的 初期 就 要 在 终端 上 输出 ， 否 则 可 以 认为 printk0 在 什么 情况 下 都 能 工作 。 


18.3.2 日 志 等 级 


printkQ 和 printf() 在 使 用 上 最 主要 的 区 别 就 是 前 者 可 以 指定 一 个 日 志 级 别 。 内 核 根据 这 个 级 
别 来 判断 是 否 在 终端 上 打印 消息 。 内 核 把 级 别 比 某 个 特定 值 低 的 所 有 消息 显示 在 终端 上 。 

可 以 通过 下 面 这 种 方式 指定 一 个 记录 级 别 : 

printk (KERN WARNING "This is a warning!l\n"); 

printk (KERN DEBUG "This is a debug notice!\n"); 

printk("I did not specify a loglevel!\n'"); 

KERN_WARING 和 KERN_DEBUG 都 是 <linux/kernel.h> 中 的 简单 宏 定 义 。 它 们 扩展 开 是 像 
“<4>” 或 “<7>” 这 样 的 字符 串 ， 加 进 printkO 函数 要 打印 的 消息 的 开头 。 内 核 用 这 个 指定 的 记 
录 等 级 和 当前 终端 的 记录 等 级 console_loglevel 来 决定 是 不 是 向 终端 上 打印 。 表 18-1 列举 了 所 有 
可 供 使 用 的 记录 等 级 。 


表 18-1 可 供 使 用 的 记录 等 级 


记录 等 级 描 述 
KERN_EMERG 一 个 紧急 情况 
KERN_ALERT 一 个 需要 立即 被 注意 到 的 错误 
KERN_CRIT 一 个 临界 情况 
KERN_ERR 一 个 错误 
KERN_WARNING 一 个 警告 
KERN_NOTICE 一 个 普通 的 ， 不 过 也 有 可 能 需要 注意 的 情况 
KERN _INFO 一 条 非 正式 的 消息 
KERN_DEBUG 一 条 调试 信息 一 一 一 般 是 元 余 信息 


如 果 你 没有 特别 指定 一 个 记录 等 级 ， 函 数 会 选用 默认 的 DEFAULT_MESSAGE_LOGLEVEL， 
现在 默认 等 级 是 KERN_WARNING。 由 于 这 个 默认 值 将 来 存在 变化 的 可 能 性 ， 所 以 还 是 应 该 给 自 
己 的 消息 指定 一 个 记录 等 级 。 

内 核 将 最 重要 的 记录 等 级 KERN EMERG 定 为 “<0>”， 将 无 关 紧 要 的 记录 等 级 “KERN_ 
DEBUG” 定 为 “<7>”。 举 例 来 说 ， 当 编译 预 处 理 完成 之 后 ， 前 例 中 的 代码 实际 被 编译 成 如 下 格式 : 

printk("<4> This is a warning!\n"); 


printk("<7> This is a debug notice!\n"); 
printk{"<4> did not specify a loglevel!l\n"); 
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怎样 给 调用 的 printkO 匡 记 录 等 级 完全 取决 于 自己 。 那 些 正式 的 、 需 要 你 保 排 的 消息 应 该 有 
合适 的 记录 等 级 。 但 是 那些 当 你 试图 解决 一 个 问题 时 加 得 到 处 都 是 的 调试 信息 (必须 承认 ， 我 
们 都 这 么 干 而 且 也 确实 行 得 通 )， 可 以 按照 你 的 想法 赋予 记录 等 级 。 一 种 选择 是 保持 终端 的 默 
认 记 录 等 级 不 变 ， 给 所 有 调试 信息 KERN_CRIT 或 更 低 的 等 级 。 相 反 ， 也 可 以 给 所 有 调试 信息 
KERN_DEBUG 等 级 ， 而 调整 终端 的 默认 记录 等 级 。 两 种 方法 各 有 利弊 ， 自 己 拿 主意 吧 。 


18.3.3 ”记录 缓冲 区 


内 核 消 息 都 被 保存 在 一 个 LOG_BUF_LEN 大 小 的 环形 队列 中 。 该 缓冲 区 大 小 可 以 在 编译 时 
通过 设置 CONFIG LOG_BUF_SHIFT 进行 调整 。 在 单 处 理 器 的 系统 上 其 默认 值 是 16KB。 换 句 
话说 ， 就 是 内 核 在 同一 时 间 只 能 保存 16KB 的 内 核 消 息 。 如 果 消 息 队 列 已 经 达到 景 大 值 ， 那 么 如 
果 再 有 printk0 调用 时 ， 新 消息 将 覆盖 队列 中 的 老 消息 。 这 个 记录 缓冲 区 之 所 以 称 为 环形 ， 是 因 
为 它 的 读 写 都 是 按照 环形 队列 方式 进行 操作 的 。 

使 用 环形 队列 有 许多 好 处 。 由 于 同时 读 写 环形 缓冲 区 时 ， 其 同步 间 题 很 容易 解决 ， 所 以 即使 
在 中 断 上 下 文中 也 可 以 方便 地 使 用 printk()。 此 外 ， 它 使 记录 维护 起 来 也 更 容易 。 如 果 有 大 量 的 
消息 同时 产生 ， 新 消息 只 需 覆 盖 掉 旧 消 息 即 可 。 在 某 个 问题 引发 大 量 消息 的 时 候 , 记录 只 会 禾 盖 
掉 它 本 身 ， 而 不 会 因为 失控 而 消耗 掉 大 量 内 存 。 而 环形 缓冲 区 的 唯一 缺点 一 一 可 能 会 丢失 消息 ， 
但 是 与 简单 性 和 健壮 性 的 好 处 相 比 ， 这 点 代价 是 值得 的 。 


18.3.4 syslogd 和 klogd 


在 标准 的 Linux 系统 上 ， 用 户 空间 的 守护 进程 klogd 从 记录 缓冲 区 中 获取 内 核 消 息 ， 再 通过 
syslogd 守护 进程 将 它们 保存 在 系统 日 志文 件 中 。klogd 程序 既 可 以 从 /proc/kmsg 文 件 中 ， 也 可 以 
通过 syslogO 系统 调用 读 取 这 些 消息 。 上 默认 情况 下 ， 它 选择 读 取 /proc 方式 实现 。 不 管 是 哪 种 方 
法 ，klogd 都 会 阻塞 ， 直 到 有 新 的 内 核 消 息 可 供 读 出 。 在 被 唤醒 之 后 ， 它 会 读 取出 新 的 内 核 消息 
并 进行 处 理 。 默 认 情 况 下 ， 它 就 是 把 消息 传 给 syslogd 守护 进程 。 

syslogd 守护 进程 把 它 接收 到 的 所 有 消息 添加 进 一 个 文件 中 ， 该 文件 默认 是 /war/log/messages。 
也 可 以 通过 /etc/syslog.conf 配置 文件 重新 指定 。 

在 启动 klogd 的 时 候 ， 可 以 通过 指定 -c 标志 来 改变 终端 的 记录 等 级 。 


18.3.5 从 printf() 到 printk() 的 转换 


当 刚 开始 开发 内 核 代码 的 时 候 ， 往 往 会 把 PrintkO 输入 成 printf)。 这 很 正常 , 你 无 法 抗拒 多 
年 来 在 用 户 级 程序 中 使 用 printf) 的 习惯 。 幸 而 这 种 错误 不 会 持续 很 长 时 间 ， 反 复出 现 的 链接 错 
误 很 快 就 会 让 你 在 心烦 意 乱 中 开始 培养 新 的 习惯 。 

在 编写 用 户 级 程序 的 时 候 ， 你 输入 printf() 的 时 候 不 小 心 输入 了 printk(0。 截 喜 你 ， 成 为 一 个 
真正 的 内 核 黑客 的 时 刻 终于 到 来 了 。 





18.4 oops 
oops 是 内 核 告 知 用 户 有 不 幸 发 生 的 最 常用 的 方式 。 由 于 内 核 是 整个 系统 的 管理 者 ， 所 以 它 
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不 能 采取 像 在 用 户 空间 出 现 苔 行 错误 时 使 用 的 那些 简单 手段 ， 因 为 它 很 难 自 行 修复 ， 它 也 不 能 将 
自己 杀 死 。 内 核 只 能 发 布 wps。 这 个 过 程 包括 向 终端 上 输出 错误 消息 ， 输 出 寄存 器 中 保存 的 信 
息 并 输出 可 供 跟 踪 的 回溯 红 。 内 核 中 出 现 的 故障 很 难处 理 ， 所 以 内 核 往往 要 经 历 严 峻 的 考验 才 
能 发 送出 oops 和 靠 它 自己 完成 的 一 些 清理 工作 。 通 常 ， 发 送 完 oops 之 后 ， 内 核 会 处 于 一 种 不 稳 
定 状 态 。 举 例 来 说 ，oops 长生 的 时 候 内 核 可 能 正在 处 理 非常 重要 的 数据 。 它 可 能 持 有 一 把 锁 或 
正在 和 硬件 设备 交互 。 内 楼 必须 适当 地 从 当前 的 上 下 文 环境 中 退出 并 尝试 恢复 对 系统 的 控制 。 多 
数 时 候 ， 这 种 尝试 都 会 失败 。 因 为 如 果 oops 在 中 断 上 下 文 时 发 生 ， 内 核 根 本 无 法 继续 ， 它 会 陷 
入 混乱。 混乱 的 结果 就 是 系统 死机 。 如 果 oops 在 idle 进程 (pid 为 0) 或 init 进 程 (pid 为 1) 时 
发 生 ， 结 果 同 样 是 系统 陷 人 混乱 ， 因 为 内 核 缺 了 这 两 个 重要 的 进程 根本 就 无 法 工作 。 不 过 ， 要 是 
oops 在 其 他 进程 运行 时 发 生 ， 内 核 就 会 杀 死 该 进程 并 尝试 着 继续 执行 。 

oops 的 产生 有 很 多 可 能 原因 ， 其 中 包括 内 存 访 问 越 界 或 者 非法 的 指令 等 。 作 为 一 个 内 核 开 
发 者 ， 你 将 会 经 常 处 理 〈 毫 无 疑问 ， 也 将 导致 ) oops。 

紧 接 着 的 是 一 个 oops 由 实例 ， 它 是 在 一 台 PPC 机 器 上 的 tulip 网 卡 的 定时 器 处 理 函数 运行 
时 发 生 的 : 

Oops: Exception in kermel mode, sig: 4 

Unable to handle kernel NULL pointer dereference at virtual address 00000001 


NIP: C013A7F0 LR: C01307F0 SP: C0685E00 REGS: c0905d10 TRAP: 0700 

Not tainted 

MSR: 00089037 EE: 1 PR: 0 FP: 0 ME: 1 IR/DR: 11 

TASK = c0712530[0] ‘swpper’ Last syscall: 120 

GPR00: C013A7CO C0295EW C0231530 0000002F 00000001 C0380CB8 C0291B80 C02D0000 
GPR08: 000012A0 000000W0 00000000 C0292AA0 4020A088 00000000 00000000 00000000 
GPR16: 00000000 000000W0 00000000 00000000 00000000 00000000 00000000 00000000 
GPR24: 00000000 0000005 00000000 00001032 C3F7C000 00000032 FFFFFFFF C3FiC1C0 
Call trace: 

[c013ab30] tulip timerdx128/0xlc4 

[c0020744] run timer stirqt0x10c/0x164 

[c001b864] do softirqtx88/0x104 

[c0007e80] timer intermpt+0x284/0x298 

[c00033c4] ret from exept+0x0/0x34 

[c0007b84] default idler0x20/0x60 

[c0007bf8] cpu idle+0x¥/0x38 

[c0003ae8] rest init+024/0x34 


使 用 PC 的 读者 可 能 对 之 么 多 的 寄存 器 感到 惊奇 (居然 有 32 个 之 多 )。 你 可 能 对 x86-32 系 
统 更 熟悉 一 些 ， 在 这 种 系统 上 ，oops 会 简单 一 点 。 但 是 ，oops 中 包含 的 重要 信息 对 于 所 有 体系 
结构 都 是 完全 相同 的 : 寄存 器 上 下 文 和 回 淹 线 索 。 

回 湖 线 索 显 示 了 导致 错 吴 发 生 的 函数 调用 链 。 这 样 我 们 就 可 以 观察 究竟 发 本 了 什么 : 机 器 处 
于 空闲 状态 ， 正 在 执行 idle 循环 ， 由 cpu_idle0 循环 调用 default_idle()。 此 时 定时 器 中 汤 产生 了 ， 
它 引 起 了 对 定时 器 的 处 理 。tulip timer0 这 个 定时 器 处 理 函 数 被 调用 ， 而 就 是 它 引 用 了 空 指针 。 
甚至 可 以 通过 偏 移 量 〈 像 m128/0x1c4 这 些 出 现在 函数 左 侧 的 数字 ) 找 出 导致 问题 的 语句 。 

寄存 器 上 下 文 信息 可 甬 样 有 用 ， 尽 管 使 用 起 来 不 那么 方便 。 如 果 你 有 函数 的 汇编 代码 ， 这 
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些 寄存 器 数据 可 以 帮助 你 重建 引发 问题 的 现场 。 在 寄存 器 中 发 现 一 个 本 不 应 该 出 现 的 数值 可 能 会 
在 黑暗 中 给 你 带 来 第 一 丝光 明 。 在 上 面 的 例子 中 ， 我 们 可 以 查看 是 哪个 寄存 器 包含 了 NULL (一 
个 所 有 位 都 为 零 的 数值 )， 进 而 找 出 是 函数 的 哪个 变量 的 值 不 正常 。 一 般 在 这 种 情况 下 问题 往往 
是 竞争 引起 的 ， 在 本 例 中 ,是 指定 时 器 和 这 块 网 卡 驱动 的 其 他 部 分 之 间 的 竞争 。 调 试 一 个 竞争 条 
件 往 往 很 有 挑战 性 。 


18.4.1 ksymoops 


前 面 列举 的 oops 可 以 说 是 一 个 经 过 解码 的 oops， 因 为 内 存 地 址 都 已 经 转换 成 了 它们 对 应 的 
函数 。 下 面 是 其 未 解码 版 本 : 


NIP: C013A7F0 LR: CO13ATFO SP: C0685E00 REGS: c0905d10 TRAP: 0700 

Not tainted . 

MSR: 00089037 EE: 1 PR: 0 FP: 0 ME: 1 IR/DR: 11 

TASK = c0712530[0] ‘swapper’ Last syscall: 120 

GPR00: C013R7C0 C0295E00 C0231530 0000002F 00000001 C0380CB8 C0291880 C02D0000 
GPR08: 000012A0 00000000 00000000 C0292AA0 4020A088 00000000 00000000 00000000 
GPR16: 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000 
GPR24: 00000000 00000005 00000000 00001032 C3F7C000 00000032 FFFFFFFF C3F7C1C0 
Call trace: [c013ab30] [c0020744] [c001b864] [c0007e80] [c00061c4] 

[c0007b84] [c0007bf8] [c0003ae8 ] 


回溯 线索 中 的 地 址 需要 转化 成 有 意义 的 符号 名 称 才 方便 使 用 。 这 需要 调用 ksymoops 命 
令 ， 并 且 还 必须 提供 编译 内 核 时 产生 的 System.map。 如 果 使 用 的 是 模块 ， 还 需要 一 些 模块 信息 。 
ksymoops 通常 会 自行 解析 这 些 信息 ， 所 以 一 般 可 以 这 样 调用 它 : 


ksymoops saved oops.txt 


然后 该 程序 就 会 吐出 解码 版 的 oops。 如 果 ksymoops 无 法 找到 默认 位 置 上 的 信息 ， 或 者 想 提 
供 不 同 信息 ， 该 程序 可 以 接受 许多 参数 。ksymoops 的 使 用 手册 上 提供 了 许多 说 明 信 息 ， 使 用 之 
前 最 好 先行 查阅 。ksymoops 一 般 会 随 Linux 发 行 版 本 提供 。 


18.4.2 kalisyms 


谢 天 谢 地 ， 现 在 已 经 无 须 使 用 ksymoops 工具 了 ， 这 是 一 个 了 不 起 的 工作 。 因 为 尽管 开发 者 
使 用 它 的 时 候 一 般 很 少 出 现 问题 ， 但 是 最 终 用 户 常常 会 错误 地 匹配 System.map 文件 或 错误 地 对 
oops 进行 解码 。 

开发 版 的 2.5 版 内 核 引 入 了 kallsyms 特性 ， 它 可 以 通过 定义 CONFIG_KALLSYMS 配 
置 选 项 启用 。 该 选项 存放 着 内 核 镜像 中 相应 函数 地 址 的 符号 名 称 ， 所 以 内 核 可 以 打印 解码 
好 的 跟踪 线索 。 相 应 地 ， 解 码 oops 也 不 再 需要 System.map 或 者 ksymoops 工具 了 。 但 是 ， 
这 样 做 会 使 内 核 变 大 一 些 ， 因 为 从 函数 的 地 址 到 符号 名 称 的 映射 必须 永久 地 驻 留 在 内 核 所 
映射 的 内 存 地 址 上 。 然 而 ,不 管 是 在 开发 的 过 程 中 还 是 在 部 署 的 过 程 中 ， 占 用 这 些 内 存 都 
是 值得 的 。 配 置 选项 CONFIG_KALLSYMS_ALL 表示 不 仅 存放 函数 名 称 ， 还 存放 所 有 的 
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符号 名 称 。 但 一 般 只 有 那些 特殊 的 调试 器 才 会 有 此 需要 。CONFIG_KALLSYMS_EXTRA_ 
PASS 选项 会 引起 内 构建 过 程 中 再 次 忽略 内 核 的 目标 代码 。 这 个 选项 只 有 在 调试 kallsyms 
本 身 时 才 会 有 用 。 ; 


18.5 ”内 核 调试 配置 选项 


在 编译 的 时 人 息 ， 为 7 了 方便 调试 和 测试 内 核 代 码 ， 内 核 提供 了 许多 配置 选项 。 这 些 选项 都 
在 内 核 配置 编辑 器 的 内 核 开发 (Kernel hacking) 菜单 项 中 ， 它 们 都 依赖 于 CONFIG_ DEBUG _ 
KERNEL。 当 开发 内 核 的 时 候 ， 作 为 一 种 练习 ， 不 妨 打 开 所 有 这 些 选 项 。 

有 些 选 项 确实 有 用 , 应 该 启用 slab layer debugging (slab 层 调试 选项 )、high-memory debugging 
(高 端 内 存 调试 选项 )、I0O mapping debugging (IO 映射 调试 选项 )、spin-lock debugging ( 自 旋 锁 调 
试 选项 ) 和 stack-overflw checking 〈 栈 溢出 检查 选项 )。 其 中 最 有 用 的 一 个 是 sleep-inside-spinlock 
checking( 自 旋 锁 内 睡 眼 选项 )， 这 些 选 项 确实 能 完成 不 少 调试 工作 。 

从 2.5 版 开始 ， 为 了 检查 各 类 由 原子 操作 引发 的 问题 ， 内 核 提 供 了 极 佳 的 工具 。 回 忆 一 下 第 
9 章 ， 原 子 操作 指 那些 能 够 不 分 隔 执行 的 东西 ; 在 执行 时 不 能 中 断 否 则 就 是 完 不 成 的 代码 。 正 在 
使 用 一 个 自 旋 锁 或 禁 上 抢占 的 代码 进行 的 就 是 原子 操作 。 在 进行 此 类 操作 的 时 候 ， 代 码 不 能 睡 
眼 一 一 使 用 锁 时 睡眠 是 # 发 死 锁 的 元 凶 。 

托 内 核 抢占 的 福 , 内 核 提 供 了 一 个 原子 操作 计数 器 。 它 可 以 被 配置 成 一 旦 在 原子 操作 过 程 中 
进程 进入 睡 卢 或 者 做 了 - 些 可 能 引起 睡眠 的 操作 ， 就 打印 警告 信息 并 提供 追踪 线索 。 所 以 ， 包 括 
正 使 用 锁 的 时 候 调 用 sdedule()， 正 使 用 锁 的 时 候 以 阻塞 方式 请 求 分 配 内 存 和 在 引用 单 CPU 数据 
时 睡眠 在 内 ， 各 种 潜在 的 bug 都 能 够 被 探测 到 。 这 种 调试 方法 捕获 了 大 量 bug， 它 也 受到 了 大 家 
极力 推荐 使 用 。 " 

下 面 这 些 选 项 可 避 服 大 限度 地 利用 该 特性 : 


CONFIG PREEMPT=y 

CONFIG DEBUG KERNL=y 

CONFIG KALLSYMS=Yy 

CONFIG DEBUG _ SPINOCK SLEEP=y 


18.6 引发 bug 并 打印 信息 

一 些 内 核 调用 可 以 用 来 方便 标记 bug， 提 供 断 言 并 输出 信息 。 最 常用 的 两 个 是 BUGO 和 
BUG_ON(O。 当 被 调用 的 时 候 ， 它 们 会 引发 oops， 导 致 栈 的 回溯 和 错误 信息 的 打印 。 这 些 声 明 
会 导致 oops 跟 硬件 的 人 f 系 结构 是 相关 的 。 大 部 分 体系 结构 把 BUG( 和 BUG_ON0) 定义 成 某 种 
非法 操作 ， 这 样 自然 会 产生 需要 的 oops。 可 以 把 这 些 调 用 当做 断言 使 用 ， 想 要 断言 某 种 情况 不 
该 发 生 : 

if (bad thing) 

BUG () ; 


或 者 使 用 更 好 的 形 R : 


BUG ON (bad thing); 
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多 数 内 核 开发 者 相信 BUG_ON( 比 BUG0 更 清晰 、 更 可 读 ， 而 且 BUG_ONO 会 将 其 声明 作 
为 一 个 语句 放 入 unlikely0 中 。 请 注意 ， 有 些 开发 者 在 讨论 是 否 能 用 一 个 编译 选项 将 BUG_ON() 
声明 在 编译 时 剔除 ， 以 便 能 在 戏 入 内 核 中 节约 空间 。 这 就 意味 着 你 可 以 放心 地 使 用 BUG_ON0， 
而 不 用 担心 BUG_ONO 内 的 声明 可 能 带 来 的 任何 “不 良 反 应 ” BUILD_ BUG_ON0 与 BUG _ 
ONO 作用 相同 ， 仅 在 编译 时 调用 。 如 果 在 编译 阶段 已 提供 的 声明 为 真 ， 那 么 编译 将 会 因为 一 个 
错误 而 中 止 。 

可 以 用 panic( 引发 更 严重 的 错误 。 调 用 panic() 不 但 会 打印 错误 消息 ， 而 且 还 会 挂 起 整个 系 
统 。 显 然 ， 只 应 该 在 最 精 糕 的 情况 下 使 用 它 : 


if (terrible thing) 
panic("terrible thing is %ld\n", terrible thing); 
有 些 时 候 ， 只 是 需要 在 终端 上 打印 一 下 栈 的 回溯 信息 来 帮助 调试 。 这 个 时 候 ，dump_stackO) 
就 很 有 用 了 。 它 只 在 终端 上 打印 寄存 器 上 下 文 和 函数 的 跟踪 线索 : 
if (!debug check) { 
printk (KERN_ DEBUG "provide some information...\n"); 
dump_stack (); 


} 


18.7 ”神奇 的 系统 请 求 键 


神奇 的 系统 请 求 键 (Magic SysRq key) 是 另外 一 根 救命 稻草 ， 该 功能 可 以 通过 定义 
CONFIG_MAGIC_SYSRQ 配置 选项 来 启用 。SysRq (系统 请 求 ) 键 在 大 多 数 键盘 上 都 是 标准 键 。 
在 i386 和 PPC 上 ， 它 可 以 通过 ALT-PrintScreen 访问 。 当 该 功能 被 启用 的 时 候 ， 无 论 内 核 处 于 什 
么 状态 ， 都 可 以 通过 特殊 的 组 合 键 跟 内 核 进行 通信 。 这 种 功能 可 以 让 你 在 面 对 一 台 在 态 一 息 的 系 
统 时 能 完成 一 些 有 用 的 工作 。 

除了 配置 选项 以 外 ， 还 要 通过 一 个 sysctl 用 来 标记 该 特性 的 开 或 关 。 需 要 启用 它 时 使 用 如 下 
命令 : 


echo 1 > /proc/sys/kernel/sysrq 


从 终端 上 ， 你 可 以 输入 Sysrq-h 获取 一 份 可 用 的 选项 列表 。SysRq-s 将 “ 脏 ” 缓 冲 区 跟 硬盘 
交换 分 区 同步 ，SysRq-u 和 卸载 所 有 的 文件 系统 ，SysRq-b 重启 设备 。 在 一 行内 发 送 这 三 个 键 的 组 
合 可 以 重新 启动 癫 临 死亡 的 系统 ， 这 上 比 直接 按 下 机 器 的 Reset 键 要 安全 一 些 。 

如 果 机 器 已 经 完全 锁 死 了 ， 它 也 可 能 不 会 再 响应 神奇 系统 请 求 键 ， 或 者 无 法 完成 给 定 的 命 
令 。 不 过 如 果 运 气 稍 好 的 话 ， 这 些 选 项 或 许可 以 保存 数据 或 者 进行 调试 。 表 18-2 列举 了 所 有 支 
持 的 系统 请 求 命令 。 

内 核 代码 中 的 Documentation/sysrq.txt 对 此 有 更 详细 的 说 明 。 实 际 的 实现 在 drivers/char/ 
sysrq.c 中 。 神 奇 系统 请 求 键 是 调试 和 挽救 垂危 系统 所 必需 的 一 种 工具 。 由 于 该 功能 对 终端 上 的 任 
何 用 户 都 提供 服务 ， 所 以 在 重要 的 机 器 上 启用 它 需 要 三 思 而 行 。 可 是 对 于 自己 用 于 开发 的 机 器 ， 
启用 它 确实 帮助 很 大 。 
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表 18-2 支持 SysRq 的 命令 


主要 命令 描 述 
SysRq-b 重新 启动 机 器 
SysRq-e 向 init 以 外 的 所 有 进程 发 送 SIGTERM 信号 
SysRq-h 在 控制 台 显示 SysRq 
SysRq-i 向 init 以 外 的 所 有 进程 发 送 SIGKILL 信号 
SysRq-k 安全 访问 键 : 杀 死 这 个 控制 台 上 的 所 有 程序 
SysRq-l 向 包括 init 的 所 有 进程 发 送 SIGKILL 信号 
SysRq-m 把 内 存 信息 输出 到 控制 台 
SysRq-o 关闭 机 器 
SysRq-p 把 寄存 器 的 信息 输出 到 控制 台 
SysRgq-r 关闭 键盘 原始 模式 
SysRq-s 把 所 有 已 安装 文件 系统 都 刷新 到 磁盘 
SysRq-t 把 任务 信息 输出 到 控制 台 
SysRq-u 印 载 所 有 已 加 载 文 件 系 统 


18.8 ”内核 调试 器 的 传奇 


很 多 内 核 开发 者 一 直 以 来 都 希望 能 拥有 一 个 用 于 内 核 的 调试 器 。 不 幸 的 是 ，Linus 不 愿意 在 
它 的 内 核 源 代 码 树 中 加 入 一 个 调试 器 。 他 认为 调试 器 会 误导 开发 者 ， 从 而 导致 引入 不 良 的 修正 。 
没有 人 能 对 他 的 逻辑 提出 异议 一 一 从 真正 理解 代码 出 发 ， 确 实 更 能 保证 修正 的 正确 性 。 然 而 ， 许 
多 内 核 开发 者 们 还 是 希望 有 一 个 官方 发 布 的 、 用 于 内 核 的 调试 器 。 因 为 这 个 要 求 看 起 来 不 会 马上 
被 满足 ， 所 以 许多 补丁 应 运 而 生 了 ， 它 们 为 标准 内 核 附 加 上 了 内 核 调试 的 支持 。 虽 然 这 都 是 一 些 
不 被 官方 认可 的 附加 补丁 ， 但 它们 确实 功能 完善 ， 十 分 强大 。 在 我 们 深入 这 些 解决 方案 之 前 ， 先 
看 看 标准 的 Linux 调试 器 gdb 能 够 给 我 们 一 些 什 么 帮助 是 一 个 不 错 的 选择 。 


18.8.1 gdb 


可 以 使 用 标准 的 GNU 调试 器 对 正在 运行 的 内 核 进行 查看 。 针 对 内 核 局 动 调试 器 的 方法 与 针 
对 进程 的 方法 大 致 相同 : 

gdb vmlinux /proc/kcore 

其 中 vmlinux 文件 是 未 经 压缩 的 内 核 映像 ， 不 是 压缩 过 的 zImage 或 bzImage， 它 存放 在 源 
代码 树 的 根 目录 上 。 

/proc/kcore 作为 一 个 参数 选项 ， 是 作为 core 文件 来 用 的 ， 通 过 它 能 够 访问 到 内 核 驻 留 的 高 
端 内 存 。 只 有 超级 用 户 才能 读 取 此 文件 的 数据 。 

可 以 使 用 gdb 的 所 有 命令 来 获取 信息 。 举 个 例子 ， 为 了 打印 一 个 变量 的 值 ， 你 可 以 用 下 面 
的 命令 : 


P global variable 
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disassemble function 


如 果 编 译 内 核 的 时 候 使 用 了 -g 参数 《在 内 核 的 Makefile 文件 的 CFLAGS 变量 中 加 入 -g)， 
gdb 还 可 以 提供 更 多 的 信息 。 比 如 ， 你 可 以 打印 出 结构 体 中 存放 的 信息 或 是 跟踪 指针 。 当 然 ， 编 
译 出 的 内 核 会 大 很 多 ， 所 以 不 要 把 编译 带 调 试 信息 的 内 核 当 做 一 种 习惯 。 

接 下 来 ， 就 要 说 不 幸 的 那 一 面 了 , gdb 还 是 有 很 多 局 限 性 的 。 它 没有 任何 办 法 修改 内 核 数 据 。 
它 也 不 能 单 步 执行 内 核 代码 ， 不 能 加 断 点 。 不 能 修改 内 核 数 据 是 个 非常 大 的 缺陷 。 尽 管 在 必要 时 
反 汇编 函 数 无 疑 是 个 非常 有 用 的 功能 ， 但 是 能 够 修改 数据 的 却 更 为 有 用 。 


18.8.2 kgdb 


kgdb 是 一 个 补丁 ， 它 可 以 让 我 们 在 远 端 主机 上 通过 串口 利用 gdb 的 所 有 功能 对 内 核 进行 
调试 。 这 需要 两 台 计 算 机 : 第 一 台 运 行 带 有 kgdb 补丁 的 内 核 ， 第 二 台 通 过 串 行 线 〈 不 通过 
modem， 直 接连 接 两 台 机 器 的 电缆 ) 使 用 gdb 对 第 一 台 进 行 调 试 。 通 过 kgdb、gdb 的 所 有 功能 都 
能 使 用 : 读 取 或 修改 变量 值 ， 设 置 断 点 ， 设 置 关 注 变 量 ， 单 步 执行 等 。 某 些 版 本 的 gdb 其 至 允许 
执行 函数 。 

设置 kgdb 和 连接 串 行 线 比较 麻烦 ， 但 是 一 旦 做 完了 ， 调 试 就 变 得 很 简单 了 。 该 补丁 会 在 
Documentation/ 目录 下 安装 很 多 说 明文 件 ， 可 以 把 它们 挑 出 来 研究 一 下 。 

不 同体 系 结构 、 不 同 内 核 版 本 使 用 的 kgdb 由 不 同 的 人 员 维 护 ， 为 了 给 需要 调试 的 内 核 找 到 
合适 的 补丁 ， 还 是 在 网 上 搜索 一 下 比较 好 。 


18.9 ”探测 系统 


如 果 对 内 核 调 试 有 丰富 的 经 验 的 话 ， 那 么 你 会 掌握 一 些 诀窍 来 帮助 你 更 进一步 地 探测 系统 从 
而 找到 想 要 的 答案 。 内 核 调试 很 有 挑战 性 ， 即 使 是 一 点 小 的 暗示 或 者 技巧 都 能 给 你 很 大 的 帮助 。 
我 们 最 好 把 它们 联系 起 来 。 


18.9.1 用 UID 作为 选择 条 件 


如 果 你 开发 的 是 进程 相关 的 部 分 ， 有 些 时 候 ， 你 可 以 在 提供 替代 物 的 同时 不 打破 原 有 代码 的 . 
可 执行 性 。 这 在 你 重 写 重要 系统 调用 的 时 候 ， 或 者 在 你 希望 进行 调试 时 系统 功能 依旧 健全 的 情况 
下 非常 有 用 。 

举 个 例子 ， 假 设 为 了 加 入 一 个 激动 人 心 的 新 特性 ， 你 重 写 了 fork0 系统 调用 。 除 非 第 一 次 的 
尝试 就 完美 无 缺 ， 否 则 系统 调试 就 是 一 场 焉 梦 。 如 果 fork0 系统 调用 不 正常 的 话 ， 压 根 就 不 用 指 
望 整个 系统 还 能 正常 工作 。 当 然 ， 和 任何 时 候 一 样 ， 希 望 总 是 存在 的 。 

一 般 情况 下 ， 只 要 保留 原 有 的 算法 而 把 你 的 新 算法 加 入 到 其 他 位 置 上 ， 基 本 就 能 保证 安全 。 
可 以 利用 把 用 户 id (UID》 作 为 选择 条 件 来 实现 这 种 功能 ， 通 过 这 种 选择 条 件 ， 可 以 安排 到 底 执 
行 哪 种 算法 : 
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§ 
if (current->uid !1= 7777) { 


除了 UID 为 7777 以 外 ， 其 他 所 有 的 用 户 都 用 的 是 老 算法 。 可 以 创建 一 个 UID 为 7777 的 用 
户 ， 专 门 来 测试 新 算法 。 对 于 要 求 很 严格 的 进程 相关 部 分 的 代码 来 说 ， 这 种 方法 使 得 测试 变 得 容 
易 了 许多 。 


18.9.2 ”使 用 条 件 变量 


如 果 代 码 与 进程 无 关 ， 或 者 希望 有 一 个 针对 所 有 情况 都 能 使 用 的 机 制 来 控制 某 个 特性 ， 可 
以 使 用 条 件 变 量 。 这 比 使 用 UID 还 来 得 简单 ， 只 需要 创建 一 个 全 局 变量 作为 一 个 条 件 选 择 开 关 。 
如 果 该 变量 为 零 ， 就 使 用 一 个 分 支 上 的 代码 。 如 果 它 不 为 零 ， 就 选择 另外 一 个 分 支 。 可 以 通过 某 
种 接口 提供 对 这 个 变量 的 操控 ， 也 可 以 直接 通过 调试 器 进行 操控 。 


18.9.3 ”使 用 统计 量 


有 些 时 候 你 需要 掌握 某 个 特定 事件 的 发 生 规 律 。 有些 时 候 需 要 比较 多 个 事件 并 从 中 得 出 规 
律 。 通 过 创建 统计 量 并 提供 某 种 机 制 访问 其 统计 结果 ， 很 容易 就 能 满足 这 种 需求 。 

举 个 例子 ， 假 设 我 们 希望 得 到 foo 和 bar 的 发 生 频 率 ， 那 么 在 某 个 文件 中 ， 当 然 最 好 是 在 定 
义 该 事件 的 那个 文件 里 ， 定 义 两 个 全 局 变量 : 


unsigned long foo stat = 0; 
unsigned long bar stat = 0; 


每 当 事 件 发 生 的 时 候 ， 就 让 相应 的 变量 加 1。 然 后 在 觉得 合适 的 地 方 输出 它 。 比 如 ， 可 以 在 
/proc 目录 中 创建 一 个 文件 ， 还 可 以 新 创建 一 个 系统 调用 。 最 简单 的 办 法 当然 还 是 通过 调试 器 直 
接 访问 它们 。 

注意 ， 这 种 实现 并 非 是 SMP 安全 的 。 理 想 的 办 法 是 通过 原子 操作 进行 实现 。 但 是 仅仅 对 于 
一 个 简单 的 每 次 加 1 的 调试 统计 量 ， 一 般 无 须 搞 得 这 人 么 麻烦 。 


18.9.4 ”重复 频率 限制 


为 了 发 现 一 个 错误 ， 开 发 者 们 往往 在 代码 的 某 个 部 分 加 入 很 多 错误 检查 语句 〈 多 数 对 应 的 
都 是 一 些 打印 语句 )。 在 内 核 中 ， 有 些 函 数 每 秒 都 要 被 调用 很 多 次 。 如 果 你 在 这 样 的 函数 中 加 
人 了 prink0， 那 么 系统 马上 就 会 被 显示 调试 信息 这 一 个 任务 压 得 喘 不 过 气 来 ， 很 快 就 什么 也 干 
不 成 了 。 

有 两 种 相关 的 技巧 可 以 用 来 防止 此 类 问题 的 发 生 。 第 一 种 是 重复 频率 限制 ， 如 果 某 种 事 
件 发 生 的 非常 频繁 ， 而 又 需要 观察 它 的 整体 进展 情况 ， 就 可 以 让 这 种 技巧 施展 身手 了 。 为 了 
避免 调试 信息 发 生 井 喷 ， 可 以 每 隔 几 秒 执行 一 次 打印 〈 或 者 是 其 他 任何 你 想 完成 的 操作 )。 
举 个 例子 : 
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static unsigned long prev jiffy = jiffies; /* 频率 限制 */ 


if (time after(jiffies, prev jiffy + 2*HZ2)) { 
prev_jiffy = jiffies; 
printk (KERN_ERR "blah blah blah\n"); 
} 
此 例 中 ， 调 试 信 息 最 多 两 秒 打 印 一 次 。 这 可 以 让 你 的 终端 不 至 于 被 油 育 而 至 的 调试 信息 洪流 
充 塞 ， 也 保证 你 的 系统 依旧 能 用 。 完 全 可 以 根据 自己 的 需要 ， 或 低 或 高 地 调整 这 种 重复 频率 。 
如 果 只 使 用 printk0， 可 以 用 一 个 特殊 的 函数 去 限制 printk( 的 调用 频率 : 


if (error && Printk ratelimit()) 
Printk (KERN DEBUG "error=%d\n", error); 


如 果 频 率 限制 生效 ， 那 么 printk_ratelimit() 返回 0 ; 否则 ， 返 回 非 0。 默 认 情况 下 ， 此 函数 
限制 每 5 秒 产生 一 条 信息 ， 但 是 在 施加 这 一 条 件 之 前 ， 可 以 让 起 始 频率 为 10 条 信息 。 可 以 通过 
printk_ratelimit 和 printk_ratelimit_burst sysctl 来 调整 这 些 参 数 。 

另 一 种 棘手 的 问题 是 你 如 何 确认 在 特定 情况 下 某 段 代码 确实 被 执行 了 。 与 前 面 的 例子 不 同 ， 
你 想 观察 的 不 是 一 个 实时 通知 。 如 果 这 种 通知 在 被 触发 一 次 之 后 依旧 不 停 地 到 来 ， 那 就 比较 麻烦 
了 。 下面 这 种 技巧 针对 的 就 不 再 是 如 何 限 制 重复 频率 了 ， 它 要 实现 的 是 发 生 次 数 限制 。 


static unsigned long limit = 0; 


if (limit < 5) { 
limit++; 
printk (KERN_ERR “blah blah blah\n"); 


此 例 中 ， 调 试 信息 输出 5 次 就 封顶 了 。5 次 之 后 ， 打 印 条 件 总 是 不 能 成 立 。 

不 管 是 上 面 提 到 的 哪个 示例 ， 用 到 的 变量 都 应 该 是 静态 的 〈static)， 并 且 应 该 限制 在 函数 的 
局 部 范围 以 内 ， 这 样 才能 保证 变量 的 值 在 经 历 多 次 函数 调用 后 仍然 能 够 保留 下 来 。 

这 些 例 子 的 代码 都 不 是 SMP 或 抢占 安全 的 ， 不 过 ， 只 需要 用 原子 操作 改造 一 下 就 没 问题 
了 。 不 过 ， 对 于 一 个 临时 的 调试 检测 来 说 ， 没 必要 搞 得 这 么 复杂 。 


18.10 用 二 分 查找 法 找 出 引发 罪恶 的 变更 


知道 bug 是 什么 时 候 引 入 内 核 源 代码 的 通常 都 是 很 有 用 的 。 如 果 你 知道 2.6.33 版 中 出 现 了 
一 个 bug， 而 能 肯定 2.4.29 中 没有 ， 那 么 就 能 够 很 容易 地 对 引发 这 个 bug 的 代码 变更 进行 定位 。 
消灭 bug 变 得 唾 手 可 得 一 一 要 么 取消 这 个 变更 ， 要 么 对 其 进行 修正 。 

可 是 ， 很 多 时 候 并 不 知道 到 底 是 哪个 内 核 版 本 引入 了 bug。 你 知道 当前 版 本 里 bug 是 确 确 实 
实 存在 的 ， 不 过 ， 它 好 像 就 是 存在 于 当前 版 本 中 。 只 需要 花 一 点 点 力气 ， 就 能 找 出 引发 问题 的 代 
码 变更 了 。 元 凶 在 手 ， 消 灭 bug 就 指日可待 了 。 

一 开始 ， 需 要 一 个 可 靠 的 可 复制 的 错误 ， 最 好 是 系统 一 启动 就 能 查证 的 bug。 接 下 来 ， 需 要 
一 个 能 确保 没 问 题 的 内 核 〈 你 应 该 能 够 找到 )。 举 个 例子 ， 你 知道 几 个 月 前 的 内 核 没 有 这 种 错误 ， 
那么 就 从 那 时 使 用 的 内 核 中 选取 一 个 。 如 果 发 现 问题 ， 说 明 那 时 就 存在 了 ， 那 就 找 更 早 的 。 找 到 
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不 含 该 bug 的 内 核 应 该 不 会 太 难 。 

接 下 来 需要 一 个 肯定 有 问题 的 内 核 。 为 了 简单 起 见 ， 应 该 从 已 知 最 早出 现 该 问题 的 内 核 开 始 。 

现在 ， 你 就 可 以 在 问题 内 核 和 良好 的 内 核 之 间 使 用 二 分 法 了 。 举 个 例子 ， 假 定 确保 没有 问 
题 的 内 核 版 本 是 2.6.11， 有 问题 的 内 核 版 本 是 2.6.20。 从 二 者 的 正中 选取 一 个 内 核 版 本 ， 比 如 说 
2.6.15。 检 查 2.6.15 是 否 包含 此 bug。 如 果 2.6.15 没有 问题 , 那么 就 知道 错误 是 发 生 在 此 版 本 之 
后 了 。 所 以 ， 再 从 2.6.15 开始 ， 在 它 和 2.6.20 正中 选取 下 一 个 版 本 ， 比 如 说 对 2.6.17 进行 检查 。 
如 果 2.6.15 有 问题 ， 那 么 错误 就 可 能 发 生 在 此 版 本 之 前 了 ,那么 就 该 选 2.6.13 作为 下 一 个 待 查 目 
标 了 。 就 这 样 重复 筛选。 

最 终 你 肯定 能 把 问题 局 限 在 两 个 相继 发 行 的 版 本 之 间 一 一 一 个 包含 错误 而 另外 一 个 不 包含 。 
你 就 能 够 很 容易 地 对 引发 这 个 bug 的 代码 变更 进行 定位 。 

这 种 方式 比 依 次 对 每 个 版 本 的 内 核 进行 核查 要 好 得 多 。 


18.11 ”使用 Git 进行 二 分 搜索 


Git 源码 管理 工具 提供 了 一 个 有 用 的 二 分 搜索 机 制 。 如 果 你 使 用 Git 来 控制 Linux 源码 树 的 
副本 ， 那 么 Git 将 自动 运行 二 分 搜索 进程 。 此 外 ，Git 会 在 修订 版 本 中 进行 二 分 搜索 ， 这 样 可 以 
找到 具体 哪 次 提交 的 代码 引发 了 bug。 很 多 Git 相关 的 任务 比较 繁杂 ， 但 使 用 Git 进行 二 分 搜索 
并 不 那么 的 困难 。 一 开始 ， 你 得 告诉 Git 你 要 进行 二 分 搜索 : 


$ git bisect start 


然后 再 为 Git 提供 一 个 出 现 问题 的 最 早 内 核 版 本 : 


$ git bisect bad <revision> 

如 果 当 前 的 内 核 版 本 就 是 引发 bug 的 罪魁 祸首 ， 那 么 就 不 必 提 供 内 核 版 本 : 

$ git bisect bad 

然后 ， 还 得 为 Git 提供 一 个 最 新 的 可 正常 运行 的 内 核 版 本 : 

$ git bisect good v2.6.28 

接 下 来 ，Git 将 会 利用 二 分 搜索 法 在 Linux 源码 树 中 ， 自 动 检测 正常 的 内 核 版 本 和 有 bug 的 


内 核 版 本 之 间 哪 个 版 本 有 隐患 。 接 着 再 编译 、 运 行 以 及 测试 正 被 检测 的 版 本 。 如 果 这 个 版 本 一 切 
正常 ， 可 以 运行 下 面 的 命令 : 


$ git bisect good 


如 果 这 个 版 本 运行 有 异常 一 也 就 是 说 ， 如 果 证 明 这 个 给 定 的 内 核 版 本 有 bug， 可 以 运行 : 
$ git bisect bad 
对 于 每 一 条 命令 ，Git 将 在 每 一 个 版 本 的 基础 上 反复 二 分 搜索 源码 树 ， 并 且 返 回 所 查 的 下 一 


个 内 核 版 本 。 这 个 过 程 需 要 反复 执行 直到 不 能 再 进行 二 分 搜索 为 止 。Git 将 最 终 打 印 出 有 问题 的 
版 本 号 。 
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这 本 应 该 是 一 个 漫长 的 过 程 ， 但 是 Git 使 得 这 一 过 程 变 得 容易 起 来 。 如 果 你 已 经 知道 引发 
bug 的 源 《〈 比 如 ，x86 机 型 的 启动 代码 )， 你 可 以 指定 git 仅仅 在 与 错误 相关 的 目录 列表 中 去 二 分 
搜索 提交 的 补丁 。 


$ git bisect start - arch/x86 


18.12 ” 当 所 有 的 努力 都 失败 时 : 社区 


或 许 你 已 经 做 完了 所 有 你 能 想到 的 尝试 。 你 在 键盘 上 呕心沥血 了 几 个 小 时 一 一 实际 上 ， 可 能 
是 无 数 日 子 ， 答 案 依旧 设 有 眷顾 你 。 此 时 ， 如 果 bug 是 在 Linux 内 核 的 主流 部 分 中 ， 你 可 以 在 内 
核 开 发 社区 中 寻求 其 他 开发 者 的 帮助 。 

你 应 该 向 内 核 邮件 列表 发 送 一 份 电子 邮件 ， 对 bug 进行 完整 而 又 简洁 地 描述 ， 你 的 发 现 可 
能 会 对 找到 最 终 的 答案 起 到 帮助 。 毕 竟 ， 没 人 希望 bug 存在 。 

第 20 章 将 会 重点 推荐 社区 和 它 最 重要 的 论坛 一 一 Linux 内 核 邮 件 列表 (LKML )。 





18.13 小 结 


本 章 讨论 了 内 核 的 调试 一 一 调试 过 程 其 实 是 一 种 寻求 实现 与 目标 偏差 的 行为 。 我 们 考察 了 几 
种 技术 : 从 内 核 内 置 的 调试 架构 到 调试 程序 ， 从 记录 日 志 到 用 git 二 分 法 查找 。 因 为 调试 Linux 
内 核 困难 重重 ， 非 调试 用 户 程序 能 比 ， 因 此 ， 本 章 的 资料 对 于 试图 在 内 核 代码 中 牛刀 小 试 的 任何 
人 都 至 关 重要 。 
我 们 将 在 第 19 章 涉 及 另外 的 话题 : Linux 内 核 的 可 移植 性 。 
不 要 止步 ! 


第 49 章 
可 移植 性 


Limx 是 一 个 可 移植 性 非常 好 的 操作 系统 ， 它 广泛 支持 许多 不 同体 系 结构 的 计算 机 。 可 移 
植 性 是 指 代码 从 一 种 体系 结构 移植 到 另外 一 种 不 同 的 体系 结构 上 的 方便 程度 。 我 们 都 知道 Linux 
是 可 移 秆 的 ， 因 为 它 已 经 能 够 在 各 种 不 同 的 体系 结构 上 运行 了 。 但 这 种 可 移植 性 不 是 凭空 得 来 
的 一 需要 在 编写 可 移植 代码 时 就 为 此 付出 努力 并 坚持 不 懈 。 现 在 ， 这 种 努力 已 经 开始 得 到 回报 
了 ,移植 Linux 到 新 的 系统 上 就 很 容易 《相对 来 说 ) 完成 。 本 章 中 我 们 将 讨论 如 何 编写 可 移植 的 
代码 -一 编写 内 核 代码 和 驱动 程序 时 ， 必 须 时 刻 牢 记 这 个 问题 。 


19.1 可 移植 操作 系统 


有 些 操作 系统 在 设计 时 把 可 移植 性 作为 头等 大 事 之 一 ， 尽 可 能 少 地 涉及 与 机 器 相关 的 代 
码 。 汇 编 代 码 用 得 少 之 又 少 ， 为 了 支持 各 种 不 同类 别 的 体系 结构 ， 界 面 和 功能 在 定义 时 都 尽 最 
大 可 能 好 具有 普 适 性 和 抽象 性 。 这 么 做 最 显著 的 回报 就 是 需要 支持 新 的 体系 结构 时 ， 所 需 完成 
的 工作 要 相对 容易 许多 。 一 些 移植 性 非常 高 而 本 身 又 比较 简单 的 操作 系统 在 支持 新 的 体系 结构 
时 ， 可 能 只 需要 为 此 体系 结构 编写 几 百 行 专门 的 代码 就 行 了 。 问 题 在 于 ， 体 系 结构 相关 的 一 些 
特性 往往 无 法 被 支持 ， 也 不 能 对 特定 的 机 器 进行 手动 优化 。 选 择 这 种 设计 ， 就 是 利用 代码 的 性 
能 优化 能 力 换 取代 码 的 可 移植 性 。Minix、NetBSD 和 许多 研究 用 的 系统 就 是 这 种 高 度 可 移植 操 
作 系 统 的 实例 。 

与 之 相反 ， 还 有 一 种 操作 系统 完全 不 顾及 可 移植 性 ， 它 们 尽 最 大 的 可 能 追求 代码 的 性 能 表 
现 ， 尽 可 能 多 地 使 用 汇编 代码 ， 压 根 就 是 只 为 在 一 种 硬件 体系 结构 使 用 。 内 核 的 特性 都 是 围绕 硬 
件 提供 的 特性 设计 的 。 因 此 ， 将 其 移植 到 其 他 体系 结构 就 等 于 再 重新 从 头 编写 一 个 新 的 操作 系统 
内 核 , 而 且 即 便 进行 移植 ， 这 种 操作 系统 在 其 他 体系 结构 上 也 会 不 适用 。 选 择 这 种 设计 ， 就 是 用 
代码 的 可 移植 性 换取 代码 的 性 能 优化 能 力 。 这 样 的 系统 往往 比 移植 性 好 的 系统 更 难 维护 。 当 然 ， 
这 种 系 纤 对 性 能 的 要 求 不 见得 比 对 可 移植 性 系统 更 强 ， 不 过 它们 还 是 愿意 辆 牲 可 移植 性 ， 而 不 乐 
意 让 设计 打折 扣 。DOS 和 Windows 95 便 是 这 种 设计 方案 的 最 好 例证 。 

Limx 在 可 移植 性 这 个 方面 走 的 是 中 间 路 线 。 差 不 多 所 有 的 接口 和 核心 代码 都 是 独立 于 硬件 
体系 结构 的 C 语言 代码 。 但 是 ， 在 对 性 能 要 求 很 严格 的 部 分 ， 内 核 的 特性 会 根据 不 同 的 硬件 体 
系 进行 调整 。 举 例 来 说 ， 需 要 快速 执行 的 和 底层 的 代码 都 与 硬件 相关 并 且 是 用 汇编 语言 写成 的 。 
这 种 实现 方式 使 Linux 在 保持 可 移植 性 的 同时 兼顾 对 性 能 的 优化 。 当 可 移植 性 妨碍 性 能 发 挥 的 时 
候 ， 往往 性 能 会 被 优先 考虑 。 除 此 之 外 ， 代 码 就 一 定 要 保证 可 移植 性 。 

一 自 来 说 ， 暴 露 在 外 的 内 核 接口 往往 是 与 硬件 体系 结构 无 关 的 。 如 果 函 数 的 任何 部 分 需要 针 
对 特殊 的 体系 结构 〈 无 论 是 出 于 优化 的 目的 还 是 作为 一 种 必需 的 选择 ) 提供 支持 的 时 候 ， 这 些 部 
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分 都 会 被 安置 在 独立 的 函数 中 ， 等 待 调用 。 每 种 被 支持 的 体系 结构 都 实现 了 一 个 与 体系 结构 相关 
的 函数 ， 而 且 会 链接 到 内 核 映 像 之 中 。 

调度 程序 就 是 一 个 好 例子 。 调 度 程序 的 主体 程序 存放 在 kernel/sched.c 文件 中 ， 用 C 语言 
编写 ， 与 体系 结构 无 关 。 可 是 ， 调 度 程序 需要 进行 的 一 些 工 作 ， 比 如 说 切换 处 理 器 上 下 文 和 切 
换 地 址 空间 等 ， 却 不 得 不 依靠 相应 的 体系 结构 完成 。 于 是 ， 内 核 用 C 语言 编写 了 函数 context_ 
switch() 用 于 实现 进程 切换 ， 而 在 它 的 内 部 ， 则 会 调用 switch_ to0 和 switch_mmg) 分 别 完成 处 理 
器 上 下 文 和 地 址 空间 的 切换 。 

而 对 于 Linux 支持 的 每 种 体系 结构 ， 它 们 的 switch_to0 和 switch_mm() 实现 都 各 不 相 
同 。 所 以 ， 当 Linux 需要 移植 到 新 的 体系 结构 上 的 时 候 ， 只 需要 重新 编写 和 提供 这 样 的 函数 
就 可 以 了 。 

与 体系 结构 相关 的 代码 都 存放 在 arch/architecture/ 目录 中 ，architecture 是 Linux 支持 的 体系 
结构 的 简称 。 比 如 说 ，Intel x86 体系 结构 对 应 的 简称 是 x86〈 这 种 体系 结构 既 支 持 x86-32 又 支持 
x86-64)。 与 这 种 体系 结构 相关 的 代码 都 存放 在 arch/x86 目录 下 。2.6 系列 内 核 支持 的 体系 结构 
包括 alpha、arm、avr32、biackfin、cris、frv、h8300、ia64、m32r、m68k、m68knommu、mips、 
mnl0300、parisc、powerpc、s390、sh、sparc、um、x86 和 xtensa.。 本 章 稍 后 给 出 的 表 19-1 是 一 
份 更 详尽 的 清单 。 


19.2 Linux 移植 史 


当 Linus 最 初 把 Linux 带 到 这 个 无 法 预测 的 大 千 世界 的 时 候 ， 它 只 能 在 i386 上 运行 。 尽 管 
这 个 操作 系统 通用 性 很 强 ， 代 码 也 写 得 不 错 ， 可 是 可 移植 性 在 那 时 算 不 上 是 一 个 关注 焦点 。 实 
际 上 ，Linus 还 一 度 建 议 让 Linux 只 在 i386 体系 结构 上 驰 对 。 不 过 ， 人 们 还 是 在 1993 年 开始 
把 Linux 向 Digital Alpha 体系 结构 上 移植 了 。Digital Alpha 是 一 种 高 性 能 现代 计算 机 体系 结 
构 ， 它 支持 RISC 和 64 位 寻 址 。 这 与 Linus 最 初 选 的 i386 无 疑 是 天 壤 之 别 。 虽 然 如 此 ， 最 
初 的 这 次 移植 工作 最 终 还 是 花 了 将 近 一 年 时 间 ，Alpha 机 成 为 了 i386 后 第 一 个 被 官方 支持 的 
体系 结构 。 万 事 开 头 难 ， 这 次 移植 的 挑战 性 是 最 大 的 ， 为 了 提高 可 移植 性 ， 内 核 中 不 少 代码 
都 被 重 汪 了 人 9S。 尽管 这 给 整个 移植 带 来 了 不 小 的 工作 量 ， 可 是 效果 是 显著 的 ， 自 此 以 后 ， 和 移植 
变 得 简单 轻松 多 了 。 

尽管 第 一 个 发 行 版 只 支持 Intel i386， 但 1.2 版 的 内 核 就 可 以 支持 Digital Alpha、Intel x86、 
MIPS 和 SPARC 一 一 虽然 支持 的 不 是 很 完善 ， 而 且 带 些 试 验 性 质 。 

在 2.0 版 内 核 中 ， 加 入 了 对 Motorola 68K 和 PowerPC 的 官方 支持 ， 而 原 1.2 版 支持 的 体系 
结构 也 纳入 了 官方 支持 的 范畴 ， 并 且 稳 定 下 来 。 

2.2 版 内 核 加 入 了 对 更 多 体系 结构 的 支持 ， 新 增 了 对 ARMS、IBM S390 和 UltraSPARC 的 支 
持 。 没 过 几 年 ，2.4 版 内 核 支持 的 体系 结构 就 达到 了 15 个 ， 像 CRIS、IA_64、64 位 MIPS、HP 
PA_RISC、64 位 IBM S/390 和 Hitachi SH 都 被 加 进来 了 。 


日 在 内 核 开发 中 这 很 普遍 。 如 果 打 算 做 一 件 事 ， 那 么 就 要 把 它 做 好 。 为 了 追求 完美 ， 内 核 开发 者 们 是 决 不 会 介 
意 重 写 大 段 代码 的 。 
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当前 的 26 内 核 把 体系 结构 的 数目 进一步 提高 到 了 21 个 ， 有 不 含 MMU 的 AVR、FR-V 和 
Motorola 68k 以 及 M32xxx、H8/300、IBM POWER、Xtensa， 甚 至 还 提供 了 用 户 模式 (Usermode) 
Linux (一 个 在 Linux 虚拟 机 上 运行 的 内 核 版 本 )。 

每 一 种 体系 结构 本 身 就 可 以 支持 不 同 的 芯片 和 机 型 。 像 被 支持 的 ARM 和 PowerPC 等 体系 
结构 ， 它 们 就 可 以 支持 很 多 不 同 的 芯片 和 机 型 。 其 他 的 体系 结构 ， 比如 说 x86 和 SPARC， 它 们 
可 以 支持 32 位 和 64 位 不 同 的 处 理 器 。 所 以 说 ， 尽 管 Linux 移植 到 了 21 种 基本 体系 结构 上 ， 但 
实际 上 可 以 运行 它 的 机 器 的 数目 要 大 得 多 。 


19.3” 字 长 和 数据 类 型 


能 够 由 机 器 一 次 完成 处 理 的 数据 称 为 字 。 这 和 我 们 在 文档 中 用 字符 (8 位 》 和 页 (许多 字 ， 
通常 是 4KB 或 8KB) 来 计量 数据 是 相似 的 。 字 是 指 位 的 整数 数目 一 一 比如 说 ，1、2、4 或 8 等 。 
但 人 们 说 某 个 机 器 是 多 少 “ 位 ”的 时 候 ， 他 们 其 实说 的 就 是 该 机 器 的 字 长 。 比 如 说 ， 当 人 们 说 
Intel i7 是 64 位 芯片 时 ， 他 们 的 意思 是 奔腾 的 字 长 为 64 位 ， 也 就 是 8 字 节 。 

处 理 器 通用 寄存 器 (general-purpose registers，GPR) 的 大 小 和 它 的 字 长 是 相同 的 。 一 般 来 
说 ， 对 于 一 个 体系 结构 ， 它 各 个 部 件 的 宽度 〈 比 如 说 内 存 总 线 ) 最少 要 和 它 的 字 长 一 样 大 。 虽 然 
物理 地 址 空间 有 时 候 会 比 字 长 小 ， 但 虚拟 地 址 空间 的 大 小 也 等 于 字 长 ， 至 少 Linux 支持 的 体系 结 
构 中 都 是 这 样 的 89。 此外，C 语言 定义 的 long 类 型 总 是 对 等 于 机 器 的 字 长 ， 而 int 类 型 有 时 会 比 
字 长 小 。 比 如 说 ，Alpha 是 64 位 机 器 ， 所 以 它 的 寄存 器 、 指 针 和 long 类 型 都 是 64 位 长 度 的 ， 而 
int 类 型 是 32 位 的 。Alpha 机 每 一 次 可 以 访问 和 操作 一 个 64 位 长 的 数据 。 

” 字 、 双 字 以 及 混合 

) 有 些 操作 系统 和 处 理 器 不 把 它们 的 标准 字 长 称 作 字 ， 相 反 ， 出 于 历史 原因 和 某 种 主观 
的 命名 习惯 ， 它 们 用 字 来 代表 一 些 固定 长 度 的 数据 类 型 。 比 如 说 ， 一 些 系统 根据 长 度 把 数据 
“划分 为 字 节 (byte，8 位 )、 字 (word，16 位 )、 双 字 (double words，32 位 》 和 四 字 (quad 
”words 64 位 )， 而 实际 上 该 机 是 32 位 的 。 在 本 书 中 在 Linux 中 一 般 也 是 这 样 )， 像 我 们 前 面 
* 所 讨论 的 那样 ， 一 个 字 就 代表 处 理 器 的 字 长 。 


对 于 支持 的 每 一 种 体系 结构 ，Linux 都 要 将 <asm/types.h> 中 的 BITS_PER_LONG 定义 为 
C long 类 型 的 长 度 ， 也 就 是 系统 的 字 长 。 表 19-1 是 Linux 支持 的 体系 结构 和 它们 的 字 长 的 对 
照 表 。 

一 般 而 言 ，Linux 对 于 一 种 体系 结构 都 会 分 别 实现 32 位 和 64 位 的 不 同 版 本 。 比 如 ， 在 2.6 
内 核 的 早期 版 本 中 ， 内 核 中 就 同时 有 i386 和 x86-64，mips 和 mips64， 以 及 ppc 和 ppc64。 但 
现在 ， 经 过 大 家 的 努力 ， 这 些 体系 结构 均 放 在 arch/ 目录 下 ， 每 个 代码 库 中 既 支持 32 位 又 支持 
64 位 。 


怠 ”不 过 实际 上 可 寻 址 的 内 存 空 间 也 可 能 会 比 字 长 小 一 些 。 比 如 ， 一 个 64 位 的 体系 结构 虽然 可 能 会 提供 64 位 的 指 
针 ， 但 可 能 只 会 用 48 位 来 寻 址 。 此 外 ， 如 果 支 持 Intel 的 PAE， 那 么 实际 的 物理 内 存 也 有 比 字 长 还 大 的 可 能 。 
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表 19-1 Linux 支持 的 体系 结构 


EE 了 
a 5 
到 人 
or 2 
pa 5 
a 5 
Em 
到 Cn 
mtn 5 
ip EE 
Power 到 人 和 人 
本 各 人 和 友信 
es REE 
sper 人 和 本 人 
区 ET 
5 到 他 和 人 


C 语言 虽然 规定 了 变量 的 最 小 长 度 ， 但 是 没有 规定 变量 具体 的 标准 长 度 ， 它 们 可 以 根据 实现 
变化 9。C 语言 的 标准 数据 类 型 长 度 随 体系 结构 变化 这 一 特性 不 断 引 起 争议 。 好 的 一 面 是 标准 数 
据 类 型 可 以 充分 利用 不 同体 系 结构 变化 的 字 长 而 无 须 明确 定义 长 度 。C 语言 中 long 类 型 的 长 度 
就 被 确定 为 机 器 的 字 长 。 不 好 的 一 面 是 在 编程 时 不 能 对 标准 的 C 数据 类 型 进行 大 小 的 假定 ， 没 
有 什么 能 够 保障 int 一 定 和 long 的 长 度 是 相同 的 全 。 

情况 其 实 还 会 更 加 复杂 ， 因 为 用 户 空间 使 用 的 数据 类 型 和 内 核 空间 的 数据 类 型 不 一 定 要 相 
互 关联 。sparc64 体系 结构 就 提供 了 32 位 的 用 户 空间 ， 其 中 指针 、int 和 long 的 长 度 都 是 32 位 。 
而 在 内 核 空 间 ， 它 的 int 长 度 是 32 位 ， 指 针 和 long 的 长 度 却 是 64。 没 有 什么 标准 来 规范 这 些 。 

牢记 下 述 准则 : 

。ANSI C 标准 规定 ， 一 个 char 的 长 度 一 定 是 1 字 节 。 

“尽管 没有 规定 int 类 型 的 长 度 是 32 位 ， 但 在 Linux 当前 所 有 支持 的 体系 结构 中 ， 它 都 是 32 

位 的 。 


日 ”唯一 的 例外 是 char， 它 的 长 度 总 是 8 位 。 
日 事实 上 对 于 Linux 支持 的 64 位 体系 结构 来 说 ，long 和 int 长 度 是 不 同 的 ，int 是 32 位 的 ， 而 long 是 64 位 的 。 
但 对 于 我 们 所 熟悉 的 32 位 体系 结构 面 言 ， 两 种 数据 类 型 都 是 32 位 的 。 
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。 short 类 型 也 类 似 ， 在 当前 所 有 支持 的 体系 结构 中 ， 虽 然 没 有 明文 规定 ， 但 是 它 都 是 16 位 的 。 
。 绝 不 应 该 假定 指针 和 long 的 长 度 ， 在 Linux 当前 支持 的 体系 结构 中 ， 它 们 可 以 在 32 位 和 
64 位 中 变化 。 

。 由 于 不 同 的 体系 结构 .long 的 长 度 不 同 ， 决 不 应 该 假设 sizeoft int ) = sizeof long )。 

*。 类似 地 ， 也 不 要 假设 指针 和 int 长 度 相等 。 

操作 系统 常用 一 个 简单 的 助 记 符 来 描述 此 系统 中 数据 类 型 的 大 小 。 比 如 ，64 位 的 Windows 
系统 简称 为 LLP64， 它 说 明 long 和 指针 的 长 度 都 是 64 位 。64 位 的 Linux 系统 可 简 记 为 LP64， 
即 long 和 指针 都 是 64 位 。32 位 的 Linux 系统 简称 为 ILP32， 即 int、long 和 指针 的 长 度 均 为 32 
位 。 这 些 助 记 符 可 以 一 目 了 然 地 显示 出 操作 系统 所 提供 的 字 长 大 小 ， 因 为 这 种 方法 涉及 一 种 权衡 
问题 。 

现在 依次 来 分 析 ILP64、LP64 和 LLP64 这 三 种 情况 。ILP64 这 种 操作 系统 ，int、long 和 指 
针 的 大 小 都 是 64 位 。 这 样 的 数据 长 度 使 得 编程 变 得 更 加 容易 ， 因 为 C 语言 中 主要 的 数据 类 型 
大 小 是 一 样 的 〈 整 型 和 指针 大 小 的 不 匹配 是 编程 中 常 出 现 的 错误 )。 不 过 这 样 也 会 带 来 缺点 ， 这 
种 整 型 比 我 们 平常 所 需 的 整 型 要 大 很 多 。 在 LP64 操作 系统 中 ， 程 序 员 可 以 使 用 不 同 大 小 的 整 
型 ， 但 必须 注意 整 型 的 大 小 比 指针 类 型 要 小 。 对 于 LLP64 系统 而 言 ， 程 序 员 不 仅 要 被 迫 接受 int 
和 long 的 大 小 相同 ， 还 要 担心 整 型 和 指针 之 间 的 大 小 不 匹配 。 大 多 数 程序 员 都 喜欢 LP64 型 ， 即 
Linux 所 采用 的 操作 系统 模型 。 


19.3.1 不 透明 类 型 


不 透明 数据 类 型 隐藏 了 它们 的 内 部 格式 或 结构 。 在 C 语 言 中 ， 它 们 就 像 黑 盒 一 样 。 支 持 它 
们 的 语言 不 是 很 多 。 作 为 替代 ， 开 发 者 们 利用 typedef 声明 一 个 类 型 ， 把 它 叫 做 不 透明 类 型 ， 希 
望 其 他 人 别 去 把 它 重新 转化 回 对 应 的 那个 标准 C 类 型 。 通 常 开发 者 们 在 定义 一 套 特 别 的 接口 时 
才 会 用 到 它们 。 比 如 说 用 来 保存 进程 标识 符 的 pid t 类 型 。 该 类 型 的 实际 长 度 被 隐藏 起 来 了 一 一 
尽管 任何 人 都 可 以 偷偷 氛 开 它 的 面 线 ， 发 现 它 就 是 一 个 int。 如 果 所 有 代码 都 不 显 式 地 利用 它 的 
长 度 人 ， 那 么 改变 时 就 不 会 引起 什么 争议 ， 这 种 改变 确实 可 能 会 出 现 : 在 老 版 本 的 Unix 系统 中 ， 
pid t 的 定义 是 short 类 型 。 

另外 一 个 不 透明 数据 类 型 的 例子 是 atomic_t。 在 第 10 章 中 介绍 过 ， 它 放置 的 是 一 个 可 以 进 
行 原子 操作 的 整 型 值 。 尽 管 这 种 类 型 就 是 一 个 int， 但 利用 不 透明 类 型 可 以 帮助 确保 这 些 数据 只 
在 特殊 的 有 关 原 子 操作 的 函数 中 才 会 被 使 用 。 不 透明 类 型 还 帮助 我 们 隐藏 了 atomic t 类 型 的 可 用 
长 度 ， 但 是 该 类 型 也 并 不 总 是 完整 的 32 位 ， 比 如 在 32 位 SPARC 体系 下 长 度 就 被 限制 。 

内 核 还 用 到 了 其 他 一 些 不 透明 类 型 ， 包 括 dev_t、gid t 和 uid t+ 等 。 

处 理 不 透明 类 型 时 的 原则 是 : 

“不 要 假设 该 类 型 的 长 度 。 这 些 类 型 在 某 些 系统 中 可 能 是 32 位 ， 而 在 其 他 系统 中 又 可 能 是 

64 位 。 并 且 ， 内 核 开 发 者 可 以 任意 修改 这 些 类 型 的 大 小 。 
。 不 要 将 该 类 型 转化 回 其 对 应 的 C 标准 类 型 使 用 。 


日 。 显 式 利用 长 度 这 里 指 直 接 使 用 int 类 型 的 长 度 ， 比 如 说 在 编程 时 使 用 sizeofint) 而 不 是 sizeofpid 0。 一 一 译 者 注 
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“成 为 一 个 大 小 不 可 知 论 者 。 编 程 时 要 保证 在 该 类 型 实际 存储 空间 和 格式 发 生变 化 时 代码 不 
” 受 影响 。 


19.3.2 ”指定 数据 类 型 


内 核 中 还 有 一 些 数据 虽然 无 须 用 不 透明 的 类 型 表示 ， 但 它们 定义 成 了 指定 的 数据 类 型 。 在 中 
断 控 制 时 用 到 的 flag 参数 就 是 个 例子 ， 它 应 该 存放 在 unsigned long 类 型 中 。 

当 存 放 和 处 理 这 些 特别 的 数据 时 ， 一 定 要 搞 清 楚 它 们 对 应 的 类 型 后 再 使 用 。 把 它们 存放 在 其 
他 〈 如 unsigned int 等 ) 类 型 中 是 一 种 常见 错误 。 在 32 位 机 上 这 没什么 问题 ， 可 是 64 位 机 上 就 
会 捅 娄 子 了 。 


19.3.3 长度 明确 的 类 型 


作为 一 个 程序 员 ， 你 往往 需要 在 程序 中 使 用 长 度 明确 的 数据 。 像 操作 硬件 设备 、 进 行 网 络 
通信 和 操作 二 进 制 文件 时 ， 通 常 都 必须 满足 它们 明确 的 内 部 要 求 。 比 如 说 ， 一 块 声卡 可 能 用 的 是 
32 位 寄存 器 ， 一 个 网 络 包 有 一 个 16 位 字段 ， 一 个 可 执行 文件 有 8 位 的 cookie。 在 这 些 情 况 下 ， 
数据 对 应 的 类 型 应 该 长 度 明 确 。 

内 核 在 <asm/typs.h> 中 定义 了 这 些 长 度 明确 的 类 型 ， 而 该 文件 又 被 包含 在 文件 <linux/types. 
h> 中 。 表 19-2 有 完整 的 清单 。 


表 19-2 长度 明确 的 数据 类 型 


类 型 描 述 
S8 带 符号 字 节 
u8 无 符号 字 节 
s16 带 符号 16 位 整数 
u16 无 符号 16 位 整数 
s32 带 符号 32 位 整数 
u32 无 符号 32 位 整数 
s64 带 符 号 64 位 整数 
u64 无 符号 64 位 整数 

其 中 带 符号 的 变量 用 得 比较 少 。 


这 些 长 度 明确 的 类 型 大 部 分 都 是 通过 typedef 对 标准 的 C 类 型 进行 映射 得 到 的 。 在 一 个 64 
位 机 上 ， 它 们 看 起 来 像 : 


typedef signed char s8; 
typedef unsigned char u8; 
typedef signed short s16; 
typedef unsigned short uilé; 
typedef signed int s32; 
typedef unsigned int u32; 
typedef signed long sé64; 
typedef unsigned long u64; 
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而 在 32 位 机 上 ， 它 们 可 能 定义 成 : 
typedef signed char s8; 

typedef unsigned char u8; 
typedef signed short s16; 
typedef unsigned short ulé; 
typedef signed int s32; 

typedef unsigned int u32; 
typedef signed long long s64; 
typedef unsigned long long ué64; 


上 述 的 这 些 类 型 只 能 在 内 核 内 使 用 ， 不 可 以 在 用 户 空间 出 现 〈 比 如 ， 在 头 文件 中 的 某 个 用 户 
可 见 结构 中 出 现 )。 这 个 限制 是 为 了 保护 命名 空间 。 不 过 内 核对 应 这 些 不 可 见 变量 同时 也 定义 了 
对 应 的 用 户 可 见 的 变量 类 型 ， 这 些 类 型 与 上 面 类 型 所 不 同 的 是 增加 了 两 个 下 划 线 前 级 。 比 如 ， 无 
符号 32 位 整 型 对 应 的 用 户 空间 可 见 类 型 就 是 _u32。 该 类 型 除了 名 字 有 区 别 外 ， 其 他 方面 与 u32 
相同 。 在 内 核 中 你 可 以 任意 使 用 这 两 个 名 字 ， 但 是 如 果 是 用 户 可 见 的 类 型 ， 那 必须 使 用 下 划 线 前 
组 的 版 本 名 ， 防 止 污染 用 户 空间 的 命名 空间 。 


19.3.4 char 型 的 符号 问题 


C 标准 表示 char 类 型 可 以 带 符号 也 可 以 不 带 符号 ， 由 具体 的 编译 器 、 处 理 器 或 由 它们 两 者 
共同 决定 到 底 char 是 带 符号 还 是 不 带 符号 。 

大 部 分 体系 结构 上 , char 默认 是 带 符号 的 ， 它 可 以 自 一 128 到 127 之 间 取 值 。 也 有 一 些 例外 ， 
比如 ARM 体系 结构 上 ，char 就 是 不 带 符号 的 ， 它 的 取 值 范围 是 0 ~ 255。 

举例 来 说 ， 在 默认 char 不 带 符号 的 情况 下 ， 下 面 的 代码 实际 会 把 255 而 不 是 把 一 1 赋予 i: 


char i = -1; 


而 另 一 种 机 器 上 ， 默 认 char 带 符号 ， 就 会 确切 地 把 一 1 赋予 i。 如 果 程 序 员 本 意 是 把 一 1 保 
存在 1 中， 那么 前 面 的 代码 就 该 修改 成 : 


signed char i = -1; 


另外 ， 如 果 程 序 员 确实 希望 存储 255， 那 么 代码 应 该 如 下 : 


unsigned char = 255; 


如 果 在 自己 的 代码 中 使 用 了 char 类 型 ， 那 么 要 保证 在 带 符 号 和 不 带 符 号 的 情况 下 代码 都 没 
问题 。 如 果 能 明确 要 用 的 是 哪 一 个 ， 就 直接 声明 它 。 


19.4 数据 对 齐 


对 齐 是 跟 数 据 块 在 内 存 中 的 位 置 相关 的 话题 。 如 果 一 个 变量 的 内 存 地 址 正好 是 它 长 度 的 整数 
倍 ， 它 就 称 作 是 自然 对 齐 的 。 举 例 来 说 ， 对 于 一 个 32 位 类 型 的 数据 ， 如 果 它 在 内 存 中 的 地 址 刚 
好 可 以 被 4 整除 (也 就 最 低 两 位 为 0)， 那 它 就 是 自然 对 齐 的 。 也 就 是 说 ， 一 个 大 小 为 2 字 节 的 
数据 类 型 ， 它 地 址 的 最 低 有 效 位 的 后 n 位 都 应 该 为 0。 

一 些 体系 结构 对 对 齐 的 要 求 非常 严格 。 通 常 像 RISC 的 系统 ， 载 入 未 对 齐 的 数据 会 导致 处 理 
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器 陷入 一 种 可 处 理 的 错误 )。 还 有 一 些 系统 可 以 访问 没有 对 齐 的 数据 ， 只 不 过 性 能 会 下 降 。 编 
写 可 移植 性 高 的 代码 要 避免 对 齐 问 题 ， 保 证 所 有 的 类 型 都 能 够 自然 对 齐 。 


19.4.1 避免 对 齐 引 发 的 问题 


编译 器 通常 会 通过 让 所 有 的 数据 自然 对 齐 来 避免 引发 对 齐 问 题 。 实 际 上 ， 内 核 开发 者 在 对 齐 
上 不 用 花费 太 大 心思 一 一 只 有 搞 gce 的 那些 老兄 才 应 该 为 此 犯愁 昵 。 可 是 ， 当 程序 员 使 用 指针 
太 多 ， 对 数据 的 访问 方式 超出 编译 器 的 预期 时 ， 就 会 引发 问题 了 。 

一 个 数据 类 型 长 度 较 小 ， 它 本 来 是 对 齐 的 ， 如 果 你 用 一 个 指针 进行 类 型 转换 ， 并 且 转 换 后 的 
类 型 长 度 较 大 ， 那 么 通过 改 指针 进行 数据 访问 时 就 会 引发 对 齐 问题 〈 无 论 如 何 ， 某 些 体系 结构 会 
存在 这 种 问题 )。 也 就 是 说 ， 下 面 的 代码 是 错误 的 : 


char wolf []="Like a wolf"; 
char *p = &wolf [1]; 
unsigned long 1 = *(unsigned long *)p; 


这 个 例子 将 一 个 指向 char 型 的 指针 当做 指向 unsigned long 型 的 指针 来 用 ， 这 会 引起 问题 ， 
因为 此 时 会 试图 从 一 个 并 不 能 被 4 或 8 整除 的 内 存 地 址 上 载 入 32 位 或 64 位 的 unsigned long 型 
数据 。 

这 种 复杂 的 访问 可 能 看 起 来 有 些 模 糊 ， 不 过 通常 就 是 如 此 。 无 论 如 何 ， 这 种 错误 出 现 了 ， 所 
以 应 该 小 心 。 实 际 编程 时 错误 可 能 不 会 像 一 些 例子 中 那么 明显 或 复杂 。 


19.4.2 ” 非 标准 类 型 的 对 齐 


前 面 提 到 了 ， 对 于 标准 数据 类 型 来 说 ， 它 的 地 址 只 要 是 其 长 度 的 整数 倍 就 对 齐 了 。 而 非 标准 
的 (复合 的 ) C 数据 类 型 按照 下 列 原则 对 齐 : 

“ 对 于 数组 ， 只 要 按照 基本 数据 类 型 进行 对 齐 就 可 以 了 ， 随 后 的 所 有 元 素 自然 能 够 对 齐 。 

" 对 于 联合 体 ， 只 要 它 包 含 的 长 度 最 大 的 数据 类 型 能 够 对 齐 就 可 以 了 。 

“ 对 于 结构 体 ， 只 要 结构 体 中 每 个 元 素 能 够 正确 地 对 齐 就 可 以 了 。 

结构 体 还 要 引入 填补 机 制 ， 这 会 引出 下 一 个 问题 。 


19.4.3 ”结构 体 填补 


为 了 保证 结构 体 中 每 一 个 成 员 都 能 够 自然 对 齐 ， 结 构 体 要 被 填补 。 这 点 确保 了 当 处 理 器 访问 
结构 中 一 个 给 定 元 素 时 ， 元 素 本 身 是 对 齐 的 。 举 个 例子 ， 下 面 是 一 个 在 32 位 机 上 的 结构 体 : 


struct animal struct { 


char dog; /* 1 字 节 */ 
unsigned long cat; /* 4 字 节 */ 
unsigned short pig; /* 2 字 节 */ 
char fox; /* 工 字 节 */ 


} : 
由 于 该 结构 不 能 准确 地 满足 各 个 成 员 自然 对 齐 ， 所 以 它 在 内 存 中 可 不 是 按照 原样 存放 的 。 编 
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译 器 会 在 内 存 中 创建 一 个 类 似 下 面 给 出 的 结构 体 : 


struct animal struct { 


char dog; /* 工 字 节 */ 
u8 _ pad0[3]; /* 3 字 节 */ 
unsigned long cat; /* 4 字 节 */ 
unsigned short pig; /* 2 字 节 */ 
char fox; /* 1 字 节 */ 
u8 _ padil; /* 1 工 字 节 ~*/ 


}; 


填补 的 变量 都 是 为 了 能 够 让 数据 自然 对 齐 而 加 入 的 。 第 一 个 填充 物 占用 了 3 个 字 节 的 空间 ， 
保证 cat 可 以 按照 4 字 节 对 齐 。 这 也 自动 使 其 他 小 的 对 象 都 对 齐 了 ， 因 为 它们 长 度 都 比 cat 要 小 。 
第 二 个 (也 是 最 后 的 ) 填充 是 为 了 填补 struct 本 身 的 大 小 。 额 外 的 这 个 填补 使 结构 体 的 长 度 能 够 
被 4 整除， 这样 ， 在 由 该 结构 体 构 成 的 数组 中 ， 每 个 数组 项 也 就 会 自然 对 齐 了 。 

注意 ， 在 大 部 分 32 位 系统 上 ， 对 于 任何 一 个 这 样 的 结构 体 ，sizeoflanimal_struct) 都 会 返回 
12。C 编译 器 自动 进行 填补 以 保证 自然 对 齐 。 

通常 你 可 以 通过 重新 排列 结构 体 中 的 对 象 来 避免 填充 。 这 样 既 可 以 得 到 一 个 较 小 的 结构 体 ， 
又 能 保证 无 须 填补 它 也 是 自然 对 齐 的 。 


struct animal _struct { 


unsigned long cat; /* 4 字 节 */ 
unsigned short pig; /* 2 字 节 */ 
char dog; /* 工 字 节 */ 
char fox; /* 1 字 节 */ 


}; 


现在 这 个 结构 体 只 有 8 字 节 大 小 了 。 不 过 ， 不 是 任何 时 候 都 可 以 这 样 对 结构 体 进行 调整 
的 。 举 个 例子 ， 如 果 该 结构 体 是 某 个 标准 的 一 部 分 ， 或 者 它 是 现 有 代码 的 一 部 分 ， 那 么 它 的 成 
员 次 序 就 已 经 被 定 死 了 ， 虽 然 内 核 〈 缺 少 一 个 正式 的 ABI) 相 比 用 户 空间 来 说 ， 这 种 需求 要 
少 得 多 。 还 有 些 时 候 ， 因 为 一 些 原因 必须 使 用 某 种 固定 的 次 序 一 一 比如 说 ， 为 了 提高 高 速 组 
存 的 命中 率 进行 优化 时 设 定 的 变量 次 序 。 注意 ，ANSI C 明确 规定 不 允许 编译 器 改变 结构 体内 
成 员 对 象 的 次 序 9 一 它 总 是 由 程序 员 来 决定 的 。 虽 然 编 译 器 可 以 帮助 你 做 填充 ， 但 是 ， 如 果 使 
用 一 Wpadded flag 标志 ， 那 么 将 使 gcc 在 发 现 结构 体 被 填充 时 产生 警告 。 

内 核 开 发 者 需要 注意 结构 体 填补 问题 ， 特 别 是 在 整体 使 用 时 一 一 这 是 指 当 需要 通过 网 络 发 
送 它们 或 需要 将 它们 写 入 文件 的 时 候 ， 因 为 不 同体 系 结构 之 间 所 需要 的 填补 也 不 尽 相 同 。 这 也 
是 为 什么 C 语言 没有 提供 一 个 内 建 的 结构 体 比 较 操作 符 的 原因 之 一 。 结 构 体 内 的 填充 字 节 中 可 
能 会 包含 垃圾 信息 ， 所 以 在 结构 体 之 间 进 行 一 字 节 一 字 节 的 比较 就 不 大 可 能 实现 了 。C 语言 的 设 
计 者 〈 正 确 的 ) 感觉 到 最 好 还 是 由 程序 员 自 己 为 不 同 的 情况 编写 比较 函数 ， 这 样 才能 利用 到 结构 
体 次 序 信息 


日 ”如 果 让 编译 器 随心 所 欲 地 改变 结构 体 中 各 个 对 象 的 位 置 的 话 ， 现 存 的 程序 大 部 分 都 会 崩溃 。 在 C 语言 中 ， 国 
数 往往 通过 在 结构 体 地 址 上 加 上 偏 移 量 来 计算 变量 的 位 置 。 
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19.5” 字 节 顺 序 


字 节 顺序 是 指 在 一 个 字 中 各 个 字 节 的 顺序 。 处 理 器 在 对 字 取 值 时 既 可 能 将 最 低 有 效 位 所 在 的 
字 节 当做 第 一 个 字 节 (最 左边 的 字 节 )， 也 可 能 将 其 当做 最 后 一 个 字 节 (最 右边 的 字 节 )。 如 果 最 
高 有 效 位 所 在 的 字 节 放 在 低 字 节 位 置 上 ， 其 他 字 节 依次 放 在 高 字 节 位 置 上 ， 那 么 该 字 节 顺序 称 作 
高 位 优先 (big-endian)。 如 果 最 低 有 效 位 所 在 的 字 节 放 在 高 字 节 位 置 上 ， 其 他 字 节 依次 放 在 低 字 
节 位 置 上 ， 那 么 就 称 作 低 位 优先 little-endian)。 

编写 内 核 代 码 时 不 应 该 假设 字 节 顺序 是 给 定 的 哪 一 种 〈 当 然 ， 如 果 你 编写 的 是 与 体系 结构 相 
关 的 那 部 分 代码 就 另 当 别论 了 )。Linux 内 核 支持 的 机 器 中 使 用 哪 一 种 字 节 顺序 的 都 有 【甚至 包 
插 一 些 可 以 在 启动 的 时 候选 择 字 节 顺序 的 机 器 )， 适 用 性 强 的 代码 应 该 两 种 字 节 顺序 都 支持 。 

图 19-1 是 高 位 优先 字 节 顺序 的 一 个 实例 ， 图 19-2 是 低位 优先 字 节 顺序 的 一 个 实例 。 











本 本 ee < > 
更 高 位 更 低位 更 低位 更 高 位 
图 19-1 高 位 优先 字 节 顺序 图 19-2 ”低位 优先 字 节 顺序 

x86 体系 结构 ， 不 论 32 位 机 还 是 64 位 机 ， 使 用 的 都 是 低位 优先 字 节 顺序 。 而 其 他 系统 大 多 
使 用 高 位 优先 字 节 顺序 。 

让 我 们 看 看 在 实际 编程 时 这 些 概念 有 什么 意义 。 让 我 们 考察 一 下 存放 在 一 个 4 字 节 的 整 型 中 
的 二 进 制 数 ， 它 的 十 进 制 对 应 值 是 1027 : 

00000000 00000000 00000100 00000011 

在 内 存 中 用 高 位 优先 和 低位 优先 两 种 不 同 字 节 上 顺序 存放 时 的 比较 如 表 19-3 所 示 。 


表 19-3 字 节 顷 序 比 较 


CE ET 
2 oo000000 
; oo000000 
注意 使 用 高 位 优先 的 体系 结构 把 最 高 字 节 位 存放 在 最 小 的 内 存 地 址 上 的 。 这 和 低位 优先 形 
成 了 鲜明 的 对 照 。 


最 后 一 个 例子 ， 我 们 提供 了 如 何 判 断 给 定 的 机 器 使 用 是 高 位 优先 还 是 低位 优先 字 节 顺序 的 代码 : 


int x = 1; 


if (*(char *) &X ==1) 
/* 低位 优先 */ 
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else 


/* 高 位 优先 */ 
这 段 代 码 在 用 户 空间 和 内 核 空间 都 能 用 。 


“高 位 优先 和 低位 优先 的 历史 
高 位 优先 和 低位 优先 源 于 乔纳森 * 斯 威夫 特写 于 1726 年 的 讽刺 小 说 《 格 列 弗 游记 》。 在 
”小 说 中 ， 虚 构 的 小 人 国 里 最 重要 的 政治 问题 就 是 应 该 把 鸡蛋 从 大 头 鼓 开 还 是 从 小 头 敲 开 。 那 
， 些 支持 从 大 头 吉 开 的 就 是 高 位 优先 ; 而 那些 支持 从 小 头 敲 开 的 ， 就 是 低位 优先 。 

高 位 优先 与 低位 优先 的 敦 优 敦 差 就 好 像 小 人 国 中 的 政治 争论 一 样 ， 与 其 说 是 技术 问题 ， 
倒 不 如 说 是 政治 问题 啦 。 


对 于 Linux 支持 的 每 一 种 体系 结构 ， 相 应 的 内 核 都 会 根据 机 器 使 用 的 字 节 顺序 在 它 的 <asm/ 
byteorderh> 中 定义 BIG ENDIAN 或 _LITTLE_ENDIAN 中 的 一 个 。 

这 个 头 文件 还 从 include/iinux/byteorder/ 中 包含 了 一 组 宏 命 令 用 于 完成 字 节 顺序 之 间 的 相互 
转换 。 最 常用 的 宏 命 令 有 : 

u23 _cpu_to_be32(u32); /* 把 cpu 字 节 顺序 转换 为 高 位 优先 字 节 顺序 */ 

u32 _cpu_ to_le32(u32); /* 把 cpu 字 节 顺序 转换 为 低位 优先 字 节 顺序 */ 

u32 __be32_to_cpu(u32); /* 把 高 位 优先 字 节 顺序 转换 为 cpu 字 节 顺序 */ 

u32 _ le32_to_cpus (u32); /* 把 低位 优先 字 节 顺序 转换 为 cpu 字 节 顺序 */ 

这 些 转换 能 够 把 一 种 字 节 顺序 变 为 另 一 种 字 节 顺序 。 如 果 两 种 字 节 上 顺序 本 来 就 相同 〈 比 如 ， 
希望 从 本 地 字 节 顺序 转化 为 高 位 优先 字 节 顺序 ， 而 处 理 器 本 身 使 用 的 就 是 高 位 优先 字 节 顺序 )， 
那么 宏 就 什么 都 不 做 。 否 则 ， 它 们 就 进行 转换 。 


19.6 时间 


时 间 测 量 是 另 一 个 内 核 概 念 ， 它 随 着 体系 结构 甚至 内 核 版 本 的 不 同 而 不 同 。 绝 对 不 要 假定 时 
钟 中 断 发 生 的 频率 ， 也 就 是 每 秒 产生 的 jifhes 数目 。 相 反 ， 应 该 使 用 HZ 来 正确 计量 时 间 。 这 一 
点 至 关 重要 ， 因 为 不 但 不 同 的 体系 结构 之 间 定 时 中 断 的 频率 不 同 ， 即 使 是 在 同一 种 体系 机 构 上 ， 
两 个 不 同 版 本 的 内 核 之 间 这 种 频率 也 不 尽 相同 。 

举 个 例子 ， 在 x86 系统 上 ，HZ 设 定 为 100。 也 就 是 说 ， 定 时 中 断 每 秒 发 生 100 次 ， 也 就 是 
每 10ms 一 次 。 可 是 在 2.6 版 以 前 ，x86 上 HZ 定 为 1000。 而 其 他 体系 机 构 上 的 数值 各 不 相同 : 
alpha 的 HZ 是 1024 而 ARM 的 HZ 是 100。 

绝对 不 要 用 jiffies 直接 去 和 1000 这 样 的 数值 比较 ， 认 为 这 样 做 大 体 上 不 会 出 问题 是 要 不 得 
的 。 计 量 时 间 的 正确 方法 是 乘 以 或 除 以 HZ。 比如 : 

HZ /* 工 秒 */ 

(2*HZ) /* 2 秒 */ 

(HZ/2) /* 半 秒 */ 


{HZ/100) /* 10ms */ 
(2*HZ/100) /* 20ms */ 


HZ 定义 在 文件 <asm/param.h> 中 ， 在 前 面 的 第 10 章 中 曾经 讨论 过 。 
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19.7 页 长 度 


者 719 章 


当 处 理 用 页 管理 的 内 存 时 ， 绝 对 不 要 假设 页 的 长 度 。 在 x86-32 下 编程 的 程序 员 往 往 错误 地 
认为 一 页 的 大 小 就 是 4K&B。 尽 管 x86-32 机 器 上 使 用 的 页 确实 是 4KB， 但 是 其 他 不 同 的 体系 结构 
使 用 的 页 长 度 可 能 不 同 。 实 际 上 有 些 体系 结构 还 同时 支持 多 种 不 同 长 度 的 页 。 表 19-4 列举 了 各 


种 体系 结构 使 用 的 页 的 长 度 。 


当 处 理 用 页 组 织 管理 的 内 存 时 ， 通 过 PAGE _SIZE 以 字 节 数 来 表示 页 长 度 。 而 PAGE_ 
SHIFT 这 个 值 定义 了 从 最 右 端 屏蔽 多 少 位 能 够 得 到 该 地 址 对 应 的 页 的 页 号 。 举 例 来 说 ， 在 页 
长 为 4KB 的 x86-32 机 上 ，PAGE_SIZE 为 4096 而 PAGE SHIFT 为 12。 它 们 都 定义 于 <ams/ 


page.h> 中 。 


cris 
blackfin 
h8300 


m32r 
m68k 
m68knommu 
mips 
mmnl0300 
parisc 
powerpc 
s390 

sh 


xtensa 


19.8 ”处理 器 排序 


表 19-4 不 同体 系 结构 的 页 长 度 
PAGE_SHIFT 


12，14，15 


12，13，14，16 


12，13 


12，13 


J 二 | 一 | 一 [ed [ee | 恤 


PAGE_SIZE 
8KB 

4KB, 16KB, 32KB 
4KB 

8KB 

16KB 

4KB 

4KB, 38KB, 16KB, 64KB 
4KB 

4KB, 8KB 

4KB 

4KB 

4KB 

4KB 

4KB 

4KB 

4KB 

4KB, 8KB 

4KB 

4KB 

4KB 


回忆 第 9 章 和 第 10 章 ， 其 中 讨论 过 体系 结构 对 指令 序列 的 排序 问题 。 有 些 处 理 器 严格 限制 
指令 排序 ， 代 码 指定 的 所 有 装载 或 存储 指令 都 不 能 被 重新 排序 ; 而 另外 一 些 体系 结构 对 排序 要 求 
则 很 弱 ， 可 以 自行 排序 指令 序列 。 
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在 代码 中 ， 如 果 在 对 排序 要 求 最 弱 的 体系 结构 上 ， 要 保证 指令 执行 顺序 。 那 么 就 必须 使 用 诸 
如 rmb0 和 wmb( 等 恰当 的 内 存 屏 障 来 确保 处 理 器 以 正确 顺序 提交 装载 和 存储 指令 。 详 情 请 参见 
第 10 章 。 


19.9 ” SMP、 内 核 抢 占 、 高 端 内 存 


在 讨论 可 移植 性 的 地 方 加 入 有 关 并 发 处 理 、 内 核 抢占 和 高 端 内 存 的 部 分 看 起 来 似乎 不 太 恰 
当 。 毕 竞 ， 这 些 都 不 是 会 影响 到 操作 系统 的 硬件 之 间 有 所 差异 的 那些 特性 ; 恰恰 相反 ， 它 们 都 是 
Linux 内 核 本 身 的 一 些 功 能 ， 硬 件 体系 结构 根本 感知 不 到 它们 的 存在 。 但 是 ， 它 们 代表 的 其 实 都 
是 可 配置 的 重要 选项 ， 而 你 的 代码 应 该 充分 考虑 到 对 它们 的 支持 。 就 是 说 ， 只 有 在 编程 时 就 针对 
SMP/ 内 核 抢占 /高 端 内 存 进行 了 考虑 ， 代 码 才 会 无 论 内 核 怎样 配置 ， 都 能 身 处 安全 之 中 。 再 在 
前 面 那些 保证 可 移植 性 的 规范 下 加 上 这 几 条 : 

“假设 你 的 代码 会 在 SMP 系统 上 运行 ， 要 正确 地 选择 和 使 用 锁 。 

“ 假设 你 的 代码 会 在 支持 内 核 抢占 的 情况 下 运行 ， 要 正确 地 选择 和 使 用 锁 和 内 核 抢占 语句 。 

“ 假设 你 的 代码 会 运行 在 使 用 高 端 内 存 〈 非 永久 映射 内 存 ) 的 系统 上 ， 必 要 时 使 用 kmap()。 


19.10 ”小 结 


要 想 写 出 可 移植 性 好 、 简 洁 、 合 适 的 内 核 代 码 ， 要 注意 以 下 两 点 : 

“ 编码 尽量 选取 最 大 公 因 子 : 假定 任何 事情 都 可 能 发 生 ， 任 何 潜在 的 约束 也 都 存在 。 

“ 编码 尽量 选取 最 小 公约 数 : 不 要 假定 给 定 的 内 核 特 性 是 可 用 的 ， 仅 仅 需要 最 小 的 体系 结构 

功能 。 

编写 可 移植 的 代码 需要 考虑 许多 问题 : 字 长 、 数 据 类 型 、 填 充 、 对 齐 、 字 节 次 序 、 符 号 、 字 
节 顺 序 、 页 大 小 以 及 处 理 器 的 加 载 / 存储 排序 等 。 对 于 绝 大 多 数 内 核 开 发 来 说 ， 可 能 主要 考虑 的 
问题 就 是 保证 正确 使 用 数据 类 型 ， 虽 然 如 此 ， 说 不 定 有 朝 一 日 ， 还 是 会 有 些 与 古老 的 体系 结构 有 
关 的 问题 突然 跳出 来 困扰 你 。 所 以 说 理解 移植 性 的 重要 性 ， 并 且 在 开发 内 核 过 程 中 时 刻 注意 编写 
简洁 、 可 移植 的 代码 是 非常 重要 的 。 


第 &0 章 
外 本 、 开 发 和 社区 


Linux 的 最 大 优势 就 是 它 有 一 个 紧密 团结 了 众多 使 用 者 和 开发 者 的 社区 。 社 区 能 帮 你 检查 代 
码 ， 社 区 中 的 专家 给 你 提出 忠告 ， 社 区 中 的 用 户 能 帮 你 进行 测试 ， 用 户 还 能 向 你 反馈 存在 的 问 
题 。 更 重要 的 是 ， 什 么 样 的 代码 可 以 加 入 Linus 的 官方 内 核 树 也 是 由 社区 做 出 决定 的 。 因 此 了 解 
系统 到 底 是 怎么 运作 的 就 显得 尤为 重要 了 。 


20.1 社区 


如 果 一 定 要 让 Linux 内 核 社区 在 现实 世界 中 找到 它 的 位 置 ， 那 它 也 许 会 叫做 内 核 邮 件 列表 
(Linux Kernel Mailing List) 之 家 。 内 核 邮件 列表 (或 者 简写 成 kml) 是 对 内 核 进行 发 布 、 讨 论 、 
争辩 和 打 口 水 仗 的 主 战 场 。 在 做 任何 实际 的 动作 之 前 ， 新 特性 会 在 此 处 被 讨论 ， 新 代码 的 大 部 分 
也 会 在 此 处 张贴 。 这 个 列表 每 天 发 布 的 消息 超过 300 条 ， 所 以 决 不 适合 心血 来 潮 的 玩 主 。 任 何 
想 踏 踏实 实 研究 、 认 认真 真 开 发 内 核 的 人 都 应 该 订阅 它 〈 至 少 要 订阅 它 的 摘要 或 者 是 它 的 归档 资 
料 )。 单 单 看 看 这 些 奇才 们 使 出 的 一 招 一 式 ， 也 能 让 你 受益 匪 浅 了 。 

你 可 以 通过 向 majordomo@vger.kernel.org 发 送 下 面 的 纯 文本 消息 订阅 这 个 邮件 列表 : 


subscribe linux-kernel <your@email .address> 


关于 这 方面 更 为 详细 的 信息 可 以 在 http://vger.kernel.org/ 中 找到 ， 此 外 在 http://www.tux.org/ 
lkml/， 还 有 一 个 专门 的 FAQ。 

网 上 还 有 无 数 与 内 核 相关 或 与 普通 的 Linux 使 用 相关 的 资源 。http://kernelnewbies.org/ 是 一 
方 适 合 内 核 开发 初级 黑客 的 乐土 一 一 该 网 站 几乎 能 够 满足 所 有 磨 刀 霍霍 向 内 核 的 新 手 的 需求 。 还 
有 两 个 网 站 也 是 不 错 的 资源 ， 包 括 http://www.liwn.net/，Linux 新 闻 周 刊 ， 它 有 一 个 专区 报道 有 关 
内 核 的 重要 新 闻 ; http://kernelnewbies.org/， 内 核 直 通车 ， 提 供 关 于 内 核 开 发 一 针 见 血 的 评论 。 


20.2 Linux 编码 风格 


像 所 有 其 他 大 型 软件 项 目 一 样 ，Linux 制定 了 一 套 编码 风格 ， 对 代码 的 格式 、 风 格 和 布局 做 
出 了 规定 。 这 么 做 不 是 因为 Linux 内 核 的 风格 有 多 么 出 众 〈 可 能 确实 还 不 错 ) 或 是 你 自己 原来 的 
风格 有 多 么 拙劣 ， 而 是 因为 保持 编码 风格 的 一 致 有 助 于 提高 编程 效率 。 然 而 对 规定 编码 风格 还 是 
存在 一 些 争 议 ， 有 人 认为 这 其 实 无 关 紧 要 ， 因 为 无 论 如 何 ， 最 终 编译 出 来 的 上 且 标 码 不 会 受 影响 。 
在 像 内 核 这 样 的 大 型 软件 项 目 中 ， 涉 及 许 许 多 多 的 开发 者 ， 编 码 的 一 致 性 变 得 至 关 重要 。 一 致意 
味 着 相似 和 熟悉 ， 也 就 意味 着 容易 读 懂 ， 不 含 歧义 ， 并 且 以 后 的 代码 仍旧 会 保持 这 种 风格 。 这 可 
以 让 更 多 的 开发 者 读 懂 你 的 代码 ， 也 能 让 你 读 懂 更 多 其 他 人 编写 的 代码 。 在 开源 项 目 中 ， 有 眼球 自 
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然 是 越 多 越 好 。 

跟 选 择 一 个 唯一 确定 的 风格 相 比 ， 到 底 选 择 什 么 样 的 风格 反而 显得 不 是 那么 重要 了 。 好 在 
Linus 早 就 展示 出 了 该 用 什么 风格 ， 而 且 绝 大 部 分 代码 都 照 这 么 做 了 。 编 码 风格 的 主要 规范 伴随 
着 Linus 一 贯 的 幽默 ， 都 记录 在 内 核 产 代码 树 的 Documentation/CodingStyle 中 了 。 


20.2.1 缩 进 


缩 进 风格 是 用 制 表 位 (Tab) 每 次 缩 进 8 个 字符 长 度 。 这 不 是 说 用 8 个 空格 缩 进 就 行 了 。 这 
里 的 规定 很 明确 ， 每 次 缩 进 通过 制 表 位 进行 ， 每 个 制 表 位 8 个 字符 长 度 。 例 如 : 


static void get new ship (Const char *name) 
{ 
if {(!name) 
Dame = DEFAULT SHIP NAME; 
get_ new ship vwith name (name); 


} 


不 知 为 什么 ， 虽 然 违反 它 会 对 可 读 性 带 来 非常 大 的 冲击 ， 但 这 个 规定 还 是 最 容易 被 人 们 违 
反 。 八 个 字符 长 度 的 缩 进 能 让 不 同 的 代码 块 看 起 来 一 目 了 然 ， 特 别 是 在 连续 几 个 小 时 的 开发 之 
后 ， 效 果 更 加 明显 。 当 然 , 随 着 缩 进 层 数 的 增加 ， 八 字符 制 表 位 的 左 侧 可 用 空间 就 所 剩 不 多 了 。 
这 是 因为 每 行 最 多 有 80 个 字符 (参见 20.2.2 节 )。Linus 极其 反对 这 样 做 ， 他 认为 代码 不 应 当 复 
杂 、 费 解 到 需要 两 级 或 者 三 级 缩 进 。 如 果真 的 需要 多 层 缩 进 ， 他 建议 ， 应 当 重 构 你 的 代码 ， 把 复 
杂 的 层次 关系 〈 为 此 形成 多 层 缩 进 ) 分 解 为 独立 的 功能 。 


20.2.2 switch 语句 


Switch 语句 下 属 的 case 标记 应 该 缩 进 到 和 switch 声明 对 齐 ， 这 样 将 有 助 于 减少 8 个 字符 的 
tab 键 带 来 的 排版 缩 进 ， 比 如 


switch (animal) { 

case ANIMADL CAT: 
handle _cats(); 
break; 

case ANIMAL WOLF: 
handle _ wolves|):; 
/* fall through */ 

Case ANIMAL DOG: 
handle_ dogs (); 
break; 

default: 
printk (KERN WARNING “Unknown animal %d!i\n”, animal); 


} 


当 执 行 逻辑 需要 有 意 地 从 一 个 case 声明 尾部 进入 另外 一 个 case 声明 时 ， 对 其 进行 评注 无 疑 
是 一 个 普遍 的 (良好 的 ) 实践 经 验 。 如 示例 中 所 见 。 
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20.2.3 ”空格 


这 一 节 讨 论 给 符号 和 关键 字 加 空格 ， 而 不 涉及 在 缩 进 中 加 空格 (这 将 在 后 面 两 节 中 讨论 )。 
一 般 来 说 ，Linux 的 编码 风格 规定 ， 空 格 放 在 关键 字 周 围 ， 函 数 名 和 圆 括号 之 间 无 空格 。 例 如 : 


if (foo) 

while (foo) 

for {i = 0; i < NR_CPUS; i++) 
switch (foo) 


相反 ， 国 数 、 宏 以 及 与 函数 相像 的 关键 字 〈 例 如 sizeof、Typeof 以 及 alignof) 在 关键 字 和 图 
括号 之 间 没 有 空格 。 


wake up process (task); 

size t nlongs = BITS TO LONG (nbits); 
int len = sizeof (struct task struct); 
typeof (*p) 

_alignof (struct sockaddr *) 
_attribute _((packed)} 


在 括号 内 ， 如 前 所 示 ， 参 数 前 后 也 不 加 空格 。 例 如 ， 下 面 这 是 禁止 的 : 


int prio = task prio( task ); /* BAD STYLE! */ 


对 于 大 多 数 二 元 或 者 三 元 操作 符 ， 在 操作 符 的 两 边 加 上 空格 。 例 如 : 


int sum = a+b; 
int product = a * b; 

int mod = a % b; 

int ret = (bar) ? bar : 0; 

return {ret ? 0 : size); 

int nr = nr ? : 1; /* allowed shortcut, same as "nr ? nr : 1" */ 
if (x < Y) 

if (tsk->flags & PF_SUPERPRIV) 

mask = POLLIN | POLLRDNORM; 


相反 ， 对 于 大 多 数 一 元 操作 符 ， 在 操作 符 和 操作 数 之 间 不 加 空格 : 


if (!foo) 

int len = foo.len; 

struct work_struct *work = &dwork->work; 
foo++; 

-bar; 

unsigned long inverted = ~mask; 


在 提 领 运算 符 的 周围 加 上 合适 的 空格 尤为 重要 。 正 确 的 风格 是 : 
char *strcpy (char *dest, const char *src) 


在 提 领 运算 符 的 一 边 加 上 空格 是 不 良 的 风格 : 


char * strcpy(char * dest, const char * src) /* BAD STYLE */ 


把 提 领 运算 符 放 在 紧 挨 类 型 的 地 方 也 是 借用 C++ 风格 的 一 种 不 良 作风 : 
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char* strcpy (char* dest, const char* src) /* BAD STYLE */ 


20.2.4” 花 括号 


花 括 号 的 使 用 不 存在 技术 上 的 差异 ， 完 全 是 个 人 喜好 问题 ， 但 我 们 还 是 必须 宣传 一 致 的 风 
格 。 内 核 选 定 的 风格 是 左 括 号 紧 跟 在 语句 的 最 后 ， 与 语句 在 相同 的 一 行 。 而 右 括号 要 新 起 一 行 ， 
作为 该 行 的 第 一 个 字符 。 如 下 例 : 

if (strnemp(buf, “NO*, 3) == 0) { 

neg = 1; 


cmp += 3; 


} 


注意 ， 如 果 接 下 来 的 标识 符 是 相同 语句 块 的 一 部 分 ， 那 么 右 花 括 号 就 不 单独 占 一 行 ， 而 是 与 
那个 标识 符 在 同一 行 ， 例 如 : 


if (ret) { 
sysctl sched rt period = old period; 
Sysct]_sched rt_runtime = old runtime; 
} else { 
def rt bandwidth.rt runtime = global rt_ runtime(); 
def rt bandwidth.rt period ="ns to ktime(global rt period()); 


percpu_counter add(&gca->cpustat [idx], val); 
ca = ca->parent; 
} while (ca); 


函数 不 采用 这 样 的 书写 方式 ， 因 为 函数 不 会 在 内 部 企 套 定义 : 


unsigned long func (void) 


{ 
jx .ay 
} 
最 后 ， 不 需要 一 定 使 用 括号 的 语句 可 以 忽略 它 : 


if (cnt > 63) 
cnt = 63; 


所 有 这 些 方法 原理 都 源 自 K&R 日 。 大 多 数 编 码 风格 都 遵循 K&R 风格 ， 这 是 在 那 本 著名 的 
书 中 所 使 用 的 C 编码 风格 。 


人 《C 语言 程序 设计 (第 2 版 )》 由 Brian Kemighan 和 Dennis Ritchie 著 ， 这 两 位 作者 简称 K&R， 该 书 是 C 语言 
的 圣经 ， 由 C 语言 的 发 明 者 和 他 的 同事 合 著 。 
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20.2.5 每 行 代 码 的 长 度 


源 代 码 中 要 尽 可 能 地 保证 每 行 代码 长 度 不 超过 80 个 字符 ， 因 为 这 样 做 可 使 代码 最 适合 在 标 
准 的 80X24 的 终端 上 显示 。 事 实 上 ， 并 不 存在 一 个 广泛 接受 的 标准 一 一 如 果 代码 行 超过 80 应 该 
折 到 下 一 行 。 有 些 开发 者 也 许 根 本 不 理会 代码 跨行 问题 ， 而 是 让 编辑 器 以 可 读 的 方式 处 理 代码 的 
显示 ; 而 有 些 开 发 者 会 手动 插入 断 行 符 来 分 割 代码 行 ， 他 们 也 许 会 在 新 行头 插入 两 个 tab 键 以 便 
和 原先 行 错开 。 

类 似 的 ， 有 些 开发 者 会 在 圆 括号 内 来 分 行 ， 对 齐 排列 函数 参数 ， 比 如 : 


static void get new parrot (const char *name, 
unsigned long disposition, 
unsigned long feather quality) 


而 另 一 些 开发 者 虽然 也 会 将 参数 分 行 输入 ， 但 却 不 会 把 它们 对 齐 排列 ， 而 是 在 开头 简单 的 加 
入 两 个 标准 tab。 比 如 : 


int find pirate flag by color(const char *color, 
const char *name, int len) 


因为 分 行 没 有 确定 的 规则 ， 所 以 开发 者 在 这 点 上 可 采取 自由 行动 。 
大 多 数 内 核 贡献 者 〈 包 括 我 在 内 ) 更 愿意 采用 前 一 个 例子 中 的 方式 : 把 大 于 80 个 字符 的 行 
进行 拆 分 ， 尽 量 让 新 产生 的 行 与 前 一 行 对 齐 。 


20.2.6 ”命名 规范 


名 称 中 不 允许 使 用 骆驼 拼写 法 (CamelCase)、Studly Caps 或 者 其 他 混合 的 大 小 写字 符 。 局 
部 变量 如 果 能 够 清楚 地 表明 它 的 用 途 ， 那 么 选取 idx 其 至 是 i 这 样 的 名 称 都 是 可 行 的 。 而 像 
theLoopIndex 这 样 元 长 繁复 的 名 字 不 在 接受 之 列 。 匈 牙 利 命名 法 〈 在 变量 名 称 中 加 入 变量 的 类 别 ) 
是 不 必要 的 ， 绝 对 不 允许 使 用 一 一 要 知道 这 里 是 C， 不 是 Java ; 用 的 是 Unix， 不 是 Windows。 

而 全 局 变量 和 函数 应 该 选择 包含 描述 性 内 容 的 名 称 ， 并 且 使 用 小 写字 母 ， 必 要 时 加 上 下 划 线 
区 分 单词 。 给 一 个 全 局 函数 起 名 为 atty0 会 使 人 迷惑 ; 而 像 get_active tty0 这 样 就 比较 容易 让 人 
接受 了 。 这 里 是 Linux， 不 是 BSD。 


20.2.7 ”函数 

根据 经 验 ， 函 数 的 代码 长 度 不 应 该 超过 两 屏 ， 局 部 变量 不 应 超过 10 个 。 一 个 函数 应 该 功能 
单一 并 且 实 现 精准 。 将 一 个 函数 分 解 成 一 些 更 短小 的 函数 的 组 合 不 会 带 来 危害 。 如 果 你 担心 函数 
调用 导致 的 开销 ， 可 以 使 用 inline 关键 字 。 
20.2.8 注释 


代码 的 注释 非常 重要 ， 但 注释 必须 按照 正确 的 方式 进行 。 一 般 情况 下 ， 你 应 该 描述 的 是 你 的 
代码 要 做 什么 和 为 什么 要 做 ， 而 不 是 具体 通过 什么 方式 实现 的 。 怎 么 实现 应 该 由 代码 本 身 展现 。 
如 果 你 不 是 这 样 做 的 ， 那 么 应 该 回 过 头 去 考虑 一 下 你 写 的 东西 了 。 此 外 ， 注 释 不 应 该 包含 谁 写 了 
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哪个 函数 、 修 改 日 期 和 其 他 那些 琐碎 而 无 实际 意义 的 内 容 。 这 些 信息 应 该 集中 在 文件 最 开头 的 
地 方 。 

虽然 gcc 也 支持 C++ 风格 的 注释 符号 ， 但 内 核 只 使 用 C 风格 的 注释 符号 。 内 核 中 一 条 注释 
看 起 来 像 是 这 样 : 

. get_ ship speed() - return the current speed of the pirate ship 


* We need this to calculate the ship coordinates.As this function can sleep, 
* do not call while holding a spinlock 


*/ 
- 在 注释 中 ， 重 要 信息 常常 以 “XXX : ”开头 ， 而 bug 通常 以 “FIXME : ”开头 ， 就 像 : 
/* 
* FIXME: We assume dog == cat which may not be true in the future 
sf 


内 核 包 含 一 套 自动 文档 生成 工具 。 它 源 自 GNOME-doc， 略 加 修改 后 命名 为 Kernel-doc。 如 
果 想 要 生成 独立 的 HTML 格式 文档 ， 运 行 


make htmldocs 


如 果 想 要 postscript 格式 的 话 ， 用 下 列 命令 : 


make psdocs 


你 也 可 以 按照 特定 的 格式 对 你 的 函数 进行 注解 ， 这 样 该 工具 也 可 以 为 你 的 函数 服务 : 


/** 
* find treasure find 'X marks the spot' 
* @map _treasure map 


* @time - time the treasure was hidden 
二 


* Must call while holding the pirate ship lock. 


void find treasure (int map, struct timeval *time) 


{ 
/sw/ 
} 


有 关 此 方面 更 多 的 细节 请 参看 Documentation/kernel-doc-nano-HOWTO.txt 文件 。 
20.2.9 typedef 


内 核 开发 者 们 强烈 反对 使 用 typedef 语句 。 他 们 的 理由 是 : 

“typedef 掩盖 了 数据 的 真实 类 型 。 

“ 由 于 数据 类 型 隐藏 起 来 了 ， 所 以 很 容易 因此 而 犯错 误 ， 比 如 以 传 值 的 方式 向 栈 中 推 人 结构 。 
， 使 用 typedef 往往 是 因为 想 要 偷 司 。9 


有些 程 序 员 往 往 是 为 了 少 硕 打 几 次 键盘 而 使 用 typedef， 比 如 typedef unsigned char uchar。 而 这 种 缩写 可 能 会 
引发 理解 和 一 致 性 上 的 问题 ， 所 以 仅仅 出 于 此 目的 而 使 用 typedef 被 作者 视 为 懒惰 行为 。 一 一 译 者 注 
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无 论 如 何 ， 就 算是 为 了 别 车 人 耻 笑 吧 ， 尽 量 少 用 typedef。 

当然 ，typedef 也 有 它 施 展 身手 的 时 候 : 当 需 要 隐藏 变量 与 体系 结构 相关 的 实现 细节 的 时 
候 ， 当 某 种 类 型 将 来 有 可 能 发 生变 化 ， 而 现 有 程序 必须 要 考虑 到 向 前 兼容 问题 的 时 候 ， 都 需要 
typedef。 使 用 typedef 要 谨慎 ， 只 有 在 确实 需要 的 时 候 再 用 它 ; 如 果 仅 仅 是 为 了 少 敲打 几 下 键盘 ， 
别 使 用 它 。 


20.2.10 ”多 用 现成 的 东西 


请 勿 闭门造车 。 内 核 本 身 就 提供 了 字符 串 操 作 函 数 、 压 缩 函 数 和 一 个 链表 接口 ， 所 以 请 使 用 
它们 。 

不 要 为 了 使 现存 接口 更 通用 化 而 对 它们 进行 新 的 封装 。 你 经 常会 发 现 ， 当 把 一 段 代码 从 某 个 
操作 系统 移植 到 Linux 上 的 时 候 ， 表 面 好 像 看 起 来 根本 没什么 问题 ， 可 是 隐藏 在 接口 下 面 复杂 的 
函数 调用 却 往 往 是 与 它 原 有 的 内 核 相关 的 。 没 人 愿意 面 对 这 些 问 题 ， 所 以 请 直接 使 用 内 核 提供 的 
接口 。 


20.2.11 在 源码 中 减少 使 用 ifdef 
我 们 不 赞成 在 源码 中 使 用 ifief 预 处 理 指 令 。 你 绝 不 应 该 在 自己 的 函数 中 使 用 如 下 的 实现 方法 ; 


#ifdef CONFIG FOO 
fo00(); 
#endif 


相反 ， 应 该 采取 的 方法 是 在 CONFIG_FOO 没 定义 的 时 候 让 foo0 函数 为 空 。 


#ifdef CONFIG_ FOO 
static int fool(void) 
{ 
/* ... */ 
} 
#else 
static inline int foo(lvoid) { } 
#endif /*CONFIG FOO*/ 


这 样 ， 你 在 任何 情况 下 都 能 调用 fpo0 了 。 让 编译 器 去 做 这 些 工作 好 了 。 


20.2.12 ”结构 初始 化 


结构 初始 化 的 时 候 必须 在 它 的 成 员 前 加 上 结构 标识 符 。 这 种 初始 化 能 避免 错误 地 使 用 其 他 结 
构 而 引发 一 个 初始 化 错误 。 它 也 支持 使 用 忽略 值 。 不 幸 的 是 ，C99 标准 改 用 了 一 种 丑陋 的 格式 来 
表示 这 种 标识 符 ， 于 是 gcc 就 再 也 不 支持 原来 GNU 风格 的 标识 符 了 ， 尽 管 它 看 起 来 确实 要 更 帅 
一 些 。 结 果 ， 内 核 代码 现在 必须 都 要 使 用 新 的 C99 标识 符 格式 了 ， 不 管 它 有 多 难看 : 


struct foo my _ foo = { 
.a = INITIAL A, 
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.b = INITIAL B, 
}; 
其 中 a 和 b 是 结构 体 foo 的 成 员 ， 而 INITIAL _A 和 INITIAL _B 是 它们 对 应 的 初始 值 。 如 果 
一 个 字段 没有 给 初始 值 ， 那 么 它 就 会 被 设置 为 ANSI C 规定 的 默认 值 ( 如 指针 被 设 为 NULL， 整 
型 被 设 为 0， 浮 点 数 被 设置 为 0.0)。 举 例 来 说 ， 如 果 foo 结构 体 还 有 一 个 int 型 的 c 成 员 ， 那 么 
上 面 的 初始 化 语句 执行 之 后 c 会 被 设置 为 0。 


20.2.13 ”代码 的 事后 修正 


即使 你 得 到 了 一 段 与 内 核 编码 风格 风 马 牛 不 相 及 的 代码 ， 也 不 用 发 悉 。 只 消 抬 抬 手 ，indent 
工具 就 能 帮 你 解决 它 。indent 是 一 个 在 大 多 数 Linux 系统 中 都 能 找到 的 好 工具 ， 它 可 以 按照 指定 
的 方式 对 源 代码 进行 格式 化 。 默 认 情况 下 它 按照 不 怎么 好 看 的 GNU 编码 风格 格式 化 代码 。 想 要 
用 Linux 内 核 编码 风格 ， 执 行 下 列 命令 : 


indent -kr -i8 -ts8 -sob -180 -ss -bs -psl <file> 


这 样 就 能 调用 该 工具 按 内 核 编 码 风 格 对 你 的 代码 进行 格式 化 了 。 此 外 ， 还 可 以 通过 scripts/ 
Lindent 自动 按照 所 需 的 格式 调用 indent。 


20.3 ”管理 系统 


内 核 黑 客 就 是 那些 从 事 内 核 开 发 工作 的 人 。 做 这 些 工 作 有 些 人 是 因为 钱 ， 有 些 人 是 因为 哮 
好 ， 但 几乎 所 有 人 都 是 为 了 从 中 找到 快乐 。 所 有 做 出 卓越 贡献 的 黑客 都 能 在 源 代 码 树 根 目录 上 的 
CREDITS 文件 中 留 名 。 

内 核 中 几乎 每 个 部 分 都 对 应 一 个 维护 者 。 维 护 者 是 指 一 个 或 几 个 对 内 核 特定 部 分 负责 的 人 。 
比如 ， 每 个 单独 的 驱动 程序 都 对 应 一 个 维护 者 。 每 个 内 核子 系统 〈 如 网 络 ) 也 有 一 个 维护 者 。 驱 
动 程序 和 子 系统 的 维护 者 也 能 在 源 代码 树 根 目 录 上 的 MAINTAINERS 文件 中 找到 。 

还 有 一 类 特殊 的 维护 者 称 作 内 核 维护 者 。 这 些 人 负责 维护 的 实际 上 就 是 代码 树 本 身 。 以 前 ， 
由 Linus 自己 负责 维护 开发 版 的 内 核 〈 乐 趣 尽 在 此 中 )， 稳 定 版 最 开始 的 一 段 时 间 也 由 他 来 维护 。 
等 到 该 内 核 稳定 下 来 了 ， 他 就 会 把 火炬 传递 给 最 好 的 内 核 开 发 者 中 的 一 些 人 手 上 ， 由 这 些 人 负责 
维护 该 代码 树 ， 而 Linus 会 转身 启动 下 一 开发 版 本 的 内 核 开发 工作 。 在 2.6 内 核 继续 保持 稳定 的 
“新 世界 秩序 ”前 提 下 ，Linus 仍然 维护 着 2.6 系列 的 内 核 。 另 外 的 开发 者 以 严格 的 “发 现 bug- 
修订 bug” 模 式 维护 2.4 系列 内 核 。 


20.4 提交 错误 报告 


如 果 磁 到 了 一 个 bug， 最 理想 的 应 对 无 疑 是 写 出 修正 代码 ， 创 建 补丁 ， 测 试 后 提交 它 ， 这 个 
流程 在 20.5 节 会 仔细 介绍 。 当 然 ， 也 可 以 报告 这 个 问题 ， 然 后 让 其 他 人 替 你 解决 。 

提交 一 个 错误 报告 最 重要 的 莫 过 于 对 问题 进行 清楚 的 描述 。 要 讲 清 楚 症 状 、 系 统 输 出 信息 、 
完整 并 经 过 解码 的 oops (如果 有 的 话 )。 更 重要 的 是 ， 你 应 该 尽 可 能 地 提供 能 够 准确 地 重 现 这 个 
错误 的 步骤 ， 并 提供 你 的 机 器 的 硬件 配置 基本 信息 。 
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然后 再 来 考虑 把 这 个 错误 报告 发 送 给 谁 。 在 内 核 源 代码 书 的 根 目 录 中 ，MAINTAINERS 文 
件 列举 出 了 每 个 相关 的 设备 驱动 程序 和 子 系统 的 单独 信息 一 一 接收 关于 其 所 维护 的 代码 的 所 有 问 
题 。 如 果 找 不 到 对 此 问题 感 兴趣 的 人 ， 那 么 就 把 它 报告 给 位 于 linux-kernel@vgerkernel.org 的 内 
核 邮件 列表 。 即 使 你 已 经 找到 维护 者 了 ， 贴 一 份 副本 在 那里 也 不 会 有 什么 坏处 。 

文档 REPORTING-BUGS 和 Documentation/oops-tracing.txt 中 有 更 多 相关 信息 。 


20.5 补丁 


对 内 核 的 任何 修改 都 是 以 补丁 的 形式 发 布 的 ， 而 补丁 其 实 是 GNU diff(1) 程序 的 一 种 特定 格 
式 的 输出 ， 该 格式 的 信息 能 够 被 patch(1) 程序 接受 。 


20.5.1 创建 补丁 


创建 补丁 最 简单 的 办 法 是 通过 两 份 内 核 源 代 码 进行 ， 一 份 源码 ， 另 一 份 是 加 进 了 所 修改 部 分 
的 源 代码 。 一 般 会 给 原来 的 内 核 代码 起 名 linux-x.y.z 其 实 就 是 把 源 代码 包 解 压缩 后 所 得 到 的 文 
件 夹 )， 而 修改 过 的 就 起 名 为 linux。 然 后 利用 下 面 的 命令 通过 这 两 份 代码 创建 补丁 : 


diff -urN linux-x.y.2z/ linux/ > my-patch 


你 可 以 在 自己 的 目录 下 运行 该 命令 ， 一 般 都 是 在 home 目录 下 ， 而 不 是 在 /hsr/src/linux 目录 
下 进行 这 种 操作 ， 所 以 不 一 定 必须 具备 超级 用 户 权 限 。 通 过 -u 参数 指定 使 用 特殊 的 di 企 输出 格 
式 。 否 则 得 到 的 patch 格式 怪异 ， 一 般 人 都 无 法 看 懂 。-r 参数 保证 会 遍历 所 有 子 目 录 进 行 操作 ， 
而 -N 参数 指明 做 出 修改 的 源 代 码 中 所 有 新 加 入 的 文件 在 di 在 操作 时 会 包含 在 内 。 另 外 ， 如 果 想 
对 一 个 单独 的 文件 进行 di 人 ff， 你 也 可 以 这 么 做 : 


diff -u linux-x.y.2z/some/file linux/some/file > my-patch 


注意 ， 在 你 自己 代码 所 在 的 目录 下 执行 di 在 很 重要 。 这 样 创建 的 补丁 别人 用 起 来 更 方便 ， 哪 
怕 他 们 的 目录 名 字 叫 differ 也 设 问题 。 执 行 一 个 这 样 生成 的 补丁 ， 只 需要 在 你 自己 代码 树 的 根 目 
录 执 行 下 列 命令 就 可 以 了 : 


patch -pl < .../my-patch 


在 这 个 例子 中 ， 补 丁 的 名 字 叫 my-patch， 它 位 于 当前 目录 的 上 一 级 目录 中 。-p1l 参数 用 来 剥 
去 补丁 中 头 一 个 目录 的 名 称 。 这 么 做 的 好 处 是 可 以 在 打 补丁 的 时 候 忽略 创建 补丁 的 人 的 目录 命名 
习惯 。 

diffstat 是 一 个 很 有 用 的 工具 ， 它 可 以 列 出 补丁 所 引起 的 变更 的 统计 (加 入 或 移 去 的 代码 
行 )。 输 出 关于 补丁 的 信息 ， 执 行 : 


diffstat -pl my-patch 


在 向 kkml 贴 出 自己 的 补丁 时 ， 附 带 上 这 份 信息 往往 会 很 有 用 。 由 于 patch(1) 会 忽略 第 一 个 
di 在 之 前 的 所 有 内 容 ， 所 以 你 甚至 可 以 在 patch 的 最 前 面 直接 加 上 简短 的 说 明 。 
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20.5.2 用 Git 创建 补丁 


如 果 你 用 Git 管理 源 代码 树 ， 你 照样 需要 用 Git 创建 补丁 一 一 也 就 是 没有 必要 按部就班 地 把 
上 述 手 工 的 步骤 操作 一 遍 ， 但 是 你 需要 忍受 Git 的 复杂 性 。 用 Git 创建 补丁 并 不 是 什么 难事 ， 只 
需要 两 个 过 程 。 首 先 ， 你 必须 是 修改 者 ， 然 后 在 本 地 提交 你 的 修改 。 把 修改 提交 到 Git 树 与 提交 
到 标准 的 源 代码 树 并 没有 什么 两 样 。 你 根本 不 需要 专门 做 任何 事情 去 编辑 存放 在 Git 中 的 文件 。 
你 做 出 修改 后 ， 就 需要 把 所 做 的 修改 提交 到 你 的 Git 版 本 库 : 


git commit -a 


-a 参数 表示 提交 所 有 的 修改 。 如 果 你 仅仅 想 提交 某 个 指定 文件 的 修改 ， 则 如 下 示例 : 


git commit some/file.c 


但 是 即使 有 了 -a 参数 ，Git 并 不 立即 提交 新 文件 ， 直 到 把 它们 添加 到 版 本 库 中 才 提 交 。 要 增 
加 一 个 文件 ， 然 后 再 提交 《以 及 其 他 所 有 的 修改 )， 则 输入 如 下 两 条 命令 : 


git add some/other/file.c 
git commit -a 


当 执 行 Git 的 commit 命令 时 , Git 会 要 求 输入 一 个 更 改 日 志 。 你 应 该 尽量 填写 的 详细 和 完整 ， 
清楚 地 解释 修改 缘由 。( 我 们 将 在 20.5.3 节 里 详细 介绍 修改 日 志 里 应 该 包含 什么 ) 你 可 以 针对 你 
的 版 本 库 创建 多 个 提交 。Git 的 设计 可 谓 考虑 周全 ， 多 个 提交 甚至 可 以 针对 同一 文件 ， 每 个 提交 
的 创建 各 自 独立 。 当 在 源码 树 中 有 一 个 《或 两 个 ) 提交 时 ， 可 以 为 每 个 提交 创建 一 个 补丁 ， 可 以 
像 20.5.1 节 所 描述 的 那样 来 处 理 这 个 补丁 : 


git format-patch origin 


对 于 所 有 的 提交 ， 这 样 产 生 的 补丁 放 在 你 的 版 本 库 中 而 不 是 原始 树 中 。Git 产生 的 补丁 位 于 
源 代 码 树 的 根 目录 中 。 如 果 只 想 为 最 后 第 N 次 提交 产生 补丁 ， 则 可 以 执行 下 列 命令 : 


git format -Patch -N 


例如 ， 下 面 的 命令 只 为 最 后 一 次 提交 产生 一 个 补丁 : 


git format-patch -1 


20.5.3 提交 补丁 


补丁 可 以 按照 20.5.2 节 描 述 的 方式 创建 。 如 果 补 丁 涉及 了 某 个 特定 的 驱动 程序 或 子 系统 ， 
应 该 把 它 发 给 MAINTAINER 中 列举 的 相关 部 分 的 维护 者 。 此 外 ， 还 应 该 向 Linux 内 核 邮件 列表 
linux-kermel@vgerkernelorg 发 送 一 份 拷贝 。 只 有 在 经 过 广泛 的 讨论 之 后 ， 或 者 是 补丁 所 做 的 修 
改 很 细微 并 且 很 容易 就 能 保证 正确 的 时 候 ， 才 应 该 向 内 核 维护 者 〈 比 如 说 Linus) 提交 。 

一 般 包含 一 份 补丁 的 邮件 ， 它 的 主题 一 栏 内 容 应 该 以 “[PATCH] 简要 说 明 ” 的 格式 写 出 。 
邮件 的 主体 部 分 应 该 描述 所 做 的 改变 的 技术 细节 ， 以 及 要 做 这 些 的 原因 ， 越 详细 越 准确 越 好 。 在 
E-mail 中 还 要 注 明 补丁 对 应 的 内 核 版 本 。 

内 核 开发 者 们 都 希望 能 通过 邮件 阅读 补丁 ， 并 且 能 够 将 其 保存 为 一 个 单独 文件 。 因 此 ， 最 好 
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把 补丁 直接 插入 邮件 ， 放 在 所 有 信息 的 最 后 。 还 要 小 心 一 些 ， 差 劲 的 邮件 客户 端 工具 ， 它 们 会 加 
入 信息 或 者 改变 邮件 的 格式 ; 这 会 导致 补丁 出 错 ， 从 而 引起 其 他 开发 者 的 不 满 。 如 果 你 用 的 邮件 
客户 端 工具 也 有 类 似 表现 ， 就 检查 一 下 ， 看 它 是 否 有 “JInsert Inline”、“Preformat” 或 类 似 功能 。 
如 果 有 的 话 ， 就 用 纯 文本 方式 把 你 的 补丁 贴 到 邮件 上 作为 附件 ， 不 要 对 它 做 什么 编码 工作 。 

如 果 你 的 补丁 很 大 或 者 包含 对 几 个 不 同 的 逻辑 的 修改 ， 那 么 应 该 将 你 的 补丁 分 成 几 块 ， 每 块 
对 应 一 个 逻辑 。 比 如 你 在 补丁 中 引入 了 一 个 新 的 API， 并 且 同 时 对 几 个 驱动 程序 进行 了 修改 以 便 
利用 它 ， 那 么 应 该 把 该 补丁 一 分 为 二 (先是 新 的 API， 然 后 是 对 驱动 程序 的 修改 )， 邮 件 也 写成 
两 份 。 如 果 任 何 一 个 部 分 需要 其 他 的 补丁 先行 ， 要 明确 地 注 明 这 一 点 。 

提交 之 后 ， 保 持 耐 心 ， 等 待 答 复 。 别 因为 某 些 反 对 言论 而 灰心 一 一 至 少 你 还 是 得 到 回应 了 
嘛 ! 和 其 他 人 讨论 这 个 问题 并 且 在 需要 的 时 候 应 该 提交 修正 过 的 新 补丁 。 如 果 你 压根 就 没 听 到 回 
声 ， 想 想 是 什么 出 了 问题 ， 然 后 着 手 解决 它 。 多 请 邮件 列表 和 维护 者 们 提出 宝贵 意见 。 运 气 好 的 
话 ， 未 来 版 本 的 内 核发 行 时 ， 你 可 能 就 会 看 到 自己 做 出 的 修改 了 一 一 那 可 就 真 的 该 恭喜 你 了 ! 





20.6 小结 


对 于 黑客 而 言 ， 最 可 贵 的 品质 便 是 渴望 一 一 就 如 身上 痒痒 ， 不 抓 不 快 一 般 的 渴望 和 决心 。 本 
书 讲述 了 Linux 内 核 的 主要 部 分 ， 讨 论 了 接口 、 数 据 结 构 、 算 法 和 原理 。 它 从 实践 出 发 ， 以 内 在 
的 视角 洞悉 内 核 ， 既 可 以 满足 你 的 好 奇 心 ， 也 可 以 帮助 你 开始 学 习 内 核 。 

不 过 ， 正 如 我 前 面 所 说 ， 你 上 路 的 唯一 方法 是 去 自己 读 、 写 代码 。Linux 社区 不 但 创造 了 这 
样 的 条 件 ， 而 且 很 欢迎 大 家 这 么 做 。 好 了 ， 不 管 你 追求 什么 ， 现 在 就 开始 去 做 吧 。 


参考 资料 


在 这 里 列 出 的 书籍 是 对 本 书 内 容 的 补充 。 注 意 ， 本 书 最 好 的 “课外 阅读 ”参考 资料 就 是 内 核 
源 代码 。 作 为 Linux 的 使 用 者 ， 我 们 被 赋予 无 限制 地 获得 全 部 现代 操作 系统 源 代码 的 权利 。 别 把 
这 当做 是 理所当然 的 ， 不 要 妓 珍 天 物 ， 要 潜心 钻研 它 。 


操作 系统 设计 书籍 


这 些 书 覆盖 了 操作 系统 议 计 领域 ， 常 作为 大 学 教科 书 。 它 们 包含 设计 一 个 功能 健全 的 操作 系 
统 所 需要 的 概念 、 算 法 、 问 题 和 解决 方法 。 我 推荐 列 出 的 所 有 书籍 ， 如 果 非 得 我 选择 一 本 ， 那 么 
Deitel 的 书 既 易 理 解 又 有 趣 可 痰 ， 它 是 我 的 首选 。 

H. Deitel、P. Deitel 以 及 D. Choffnes 的 《Operating Systems》，Prentice Hall，2003。 该 书 对 
操作 系统 的 原理 进行 了 透彻 讲述 ， 并 且 列 出 了 很 多 出 色 的 实例 研究 ， 适 合 把 理论 付 之 于 实践 。 

Tanenbaum，Andrew 的 (Modern Operating Systems》，Prentice Hall，2007。 该 书 深刻 揭示 
了 标准 操作 系统 设计 精 骨 ， 基 中 也 不 乏 讨 论 许多 今天 流行 的 现代 操作 系统 ， 如 Unix 和 Windows。 

Tanenbaum，Andrew 的 《Operating Systems : Design and Implementation》，Prentice 
Hall，2006。 该 书 精辟 地 介绍 了 如 何 设计 和 实现 一 个 类 Unix 操作 系统 一 一 Minix。 

Silberschatz A.、P. Galvin 和 G. Gagne 的 《Operating System Concepts》，John Wiley and Sons， 
2008。 由 于 该 书 封面 图 片 看 直 来 和 恐龙 有 关 ， 所 以 也 被 称 为 “恐龙 宝典 ”。 这 是 一 本 介绍 操作 系 
统 设计 的 好 书 ， 而 且 频 繁 再 版 版 版 经 典 。 


Unix 内 核 书籍 


这 些 书 主要 针对 Unix 内 核 设计 与 实现 ， 前 五 本 讨论 Unix 特定 版 本 ， 后 两 本 关注 所 有 Unix 
版 本 的 通用 特点 。 如 果 你 只 蕊 其 中 的 两 本 ， 那 么 我 坚持 推荐 最 后 两 本 : 

Bach，Maurice 的 《The Design of the Unix Operating System》，Prentice Hall，1986。 这 是 一 
本 讨论 Unix 系统 V2 版 本 的 化 秀 书籍 。 

MecKusick M.、K. Bostit、M. Karels 和 J.Quarterman 的 《The Design and Implementation of 
4.4BSD Operating System》，Addison-Wesley,1996。 操 作 系 统 设计 者 自己 编写 的 讨论 设计 4.4BSD 
系统 的 优秀 书籍 。 

McKusick，M. 和 G. Nerille-Neil 的 《The Design and Implementation of the FreeBSD Operating 
System》，Addison-Wesley, 204。 这 是 一 本 讨论 FreeBSD 5.2 系统 设计 与 实现 的 优秀 书籍 。 

McDougall，R 和 J. Mauo 的 《Solaris Internals: Solaris and OpenSolaris 人 emel Architecture》， 
Prentice Hall，2006。 这 是 一 本 对 Solaris 内 核 的 核心 子 系统 和 算法 进行 精彩 讨论 的 优秀 书籍 。 
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Cooper C. 和 C. Moore 的 《HP-UX 11i Internals》，Prentice Hall，2004。 这 本 书 对 HP-UX 和 
PA-RISC 体系 结构 的 内 幕 进 行 了 初探 。 

Vahalia，Uresh 的 《Unix Internals:The New Frontiers》，Prentice Hall，1995。 这 是 一 本 关于 
现代 Unix 系统 特色 的 优秀 书籍 ， 主 要 介绍 了 线程 管理 和 内 核 抢 占 等 功能 。 

Schimmel，Curt 的 《UNIX Systems for Modern Architectures:Symmetric Multiprocessing and 
Caching for Kernel Programmers》，Addision-Wesley，1994。 该 书 揭示 了 在 现代 体系 结构 上 实现 现 
代 Unix 操作 系统 可 能 要 面 对 的 种 种 危险 。 强 烈 推 荐 阅读 这 本 图 书 。 


Linux 内 核 书 籍 

以 下 书籍 与 本 书 一 样 讨论 Linux 内 核 。 有 点 可 惜 的 是 ， 这 方面 的 好 书 不 多 。 不 过 ， 我 推荐 阅 
读 下 列 两 本 。 

Benvenuti, Christian 的 《Understanding Linux Network Internals》，O"Reilly and Associates， 
2005。 这 本 书 对 Linux 网 络 进行 了 深入 分 析 。 

Corbet, J. 、A. Rubini 和 G. Kroah-Hartman 的 《Linux Device Drivers》,O’Reilly and 
Associates，2005。 这 本 书 讨论 了 在 2.6 内 核 上 如 何 编写 驱动 程序 ， 尤 其 是 针对 各 种 设备 重点 描述 
了 所 支持 的 编程 接口 ， 这 是 一 本 经 典 的 介绍 编写 驱动 程序 的 图 书 。 





关于 其 他 系统 的 内 核 书 
了 解 你 的 敌人 一 一 错误 和 竞争 对 手 一 一 才能 处 于 不 败 之 地 。 下 列 书 籍 讨论 了 非 Linux 系统 的 


设计 与 实现 。 你 可 以 从 中 获得 经 验 或 教训 。 

Kogan M. 和 H. Deitel 的 《The Design of OS/2》, Addison-Wesley, 1996。 该 书 介 绍 了 OS/2 2.0 
的 设计 。 

Singh，Amit 的 《Mac OS X Internals : A Systems Approach》，Addison-Wesley Professional, 
2006。 该 书 对 整个 Mac OS X 系统 进行 了 完整 论述 ， 既 有 深度 又 有 广度 。 

Solomon，D. 和 M. Russinovich 的 《Windows Internals : Covering Windows Server 2008 and 
Windows Vista》，Microsoft Press，2009。 这 是 一 本 介绍 非 Unix 操作 系统 的 有 趣 书籍 。 


关于 Unix API 的 书籍 


深入 探索 Unix 系统 的 API 函数 不 仅 对 编写 优秀 的 用 户 空 间 应 用 程序 很 关键 ， 同 时 也 对 理解 
内 核 功能 大 有 帮助 。 

Love，Robert 的 《Linux System Programming》，O’Reilly and Associates，2007。 该 书 作 者 负 
责 Linux 的 系统 级 编程 ， 该 书 涵盖 了 Linux 系统 调用 以 及 libc API 等 内 容 ， 并 对 Linux 所 具有 的 
一 些 技巧 和 方式 给 予 关注 。 

Stevens W. R. 和 S.Rago 的 《Advanced Programming in the UNIX Environment 》，Addison- 
Wesley，2008。 该 书 是 讨论 Unix 系统 调用 接口 的 权威 书籍 。 

Stevens W. Richard 的 《UNIX Network Programming Volume 1》，Prentice Hall，2004。 这 是 
一 本 关于 Unix 系统 套 接 字 API 的 经 典 教材 。 
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关于 C 语言 编程 的 书 

Linux 内 核 以 及 Linux 系统 的 其 他 很 多 软件 都 是 用 C 语言 编写 的 。 下 列 两 本 书 值得 推荐 

Kernighan B. 和 D.Richie 的 《The C Programming Language》，Prentice Hall，1988。 这 是 一 
本 介绍 C 语言 编程 的 权威 书籍 ， 由 C 的 发 明 者 及 其 合作 者 编写 。 

van der Linden，Peter 的 《Expert C Programming》，Prentice Hall，1994。 该 书 对 不 易 理解 的 
C 细节 给 予 了 难能可贵 的 讨论 ， 作 者 的 语言 风趣 幽默 。 


其 他 书籍 


下 面 的 书籍 严格 说 可 能 和 操作 系统 无 关 ， 但 是 这 些 书 无 疑 从 某 些 层 面 影响 了 操作 系统 。 

Hofstadter，Douglas 的 《G .del，Escher，Bach : An Eternal Golden Braid 》，Basic Books, 
1999。 这 是 一 本 对 人 类 思想 进行 深刻 研究 的 必 备 书籍 ， 它 的 内 容 覆 盖 众 多 主题 ， 其 中 也 包含 计算 
机 科学 。 

Knuth，Donald ”的 《The Art of Computer Programming, Volume 1》，Adderson-Wesley， 
1997。 这 是 一 本 无 价 的 介绍 计算 机 科学 算法 的 基础 书籍 ， 其 中 介绍 了 内 存 管理 中 的 最 佳 适 应 算法 
和 最 坏 适 应 算法 。 


Web 站 点 
Kernel.org。 内 核 代码 库 的 官方 站 点 ， 同 时 也 容纳 了 核心 内 核 黑 客 的 大 量 补丁 包 。 网 址 是 : 
http:/www.kernel.org。 


Linux Weekly News。 出 色 的 新 闻 站 点 ， 对 一 周 Linux 〈 包 括 内 核 ) 所 发 生 的 新 闻 给 予 贮 智 、 
准确 的 评论 。 强 烈 推荐 浏览 。 网 址 是 : www.lwn.net。 
OS 新 闻 。 包 括 关 于 操作 系统 的 新 闻 ， 也 包括 原创 文章 、 访 谈 以 及 reviews.www.osnews. 


CoOmi。 


